解决样本不平衡问题的奇技淫巧 汇总

先举一个“恐怖”的例子,直观的感受一下样本不平衡问题:

你根据1000个正样本和1000个负样本正确训练出了一个准确率(precison,下同)90%召回率(recall,下同)90%的分类器,且通过实验验证没有欠采样过采样的问题哦~完美的样本,完美的模型,破费,你心里暗自得意。然后模型上线,正式预测每天的未知样本~。

开始一切都很美好,准确率召回率都很好。直到有一天,数据发生了一点变化,还是原来的数据类型和特征,只是每天新数据中正负样本变成了100个正样本,10000个负样本。注意,先前准确率90%的另一种表达是负样本有10%的概率被误检为正样本。好了,模型不变,现在误检的负样本数是10000*0.1=1000个,正样本被检出100*0.9(召回)=90个,好了,这个时候召回率不变仍为90%,但是新的准确率=90/(1000+90)=8.26% 。震惊吗!?恐怖吗!?

结论: 同一个模型仅仅是改变了验证集的正负样本比例,模型已经从可用退化成不可用了!!样本不平衡问题可怕就可怕在这,往往你的模型参数,训练,数据,特征都是对的!能做的都做了,但你的准确率就是上不去!!绝望吧。。。。。。

 

问题定义:数据集中,每个类别下的样本数目相差很大(数量级上的差距)。以下以二分类问题为例说明。

 

1. SMOTE(Synthetic Minority Over-sampling Technique)过采样小样本(扩充小类,产生新数据)
即该算法构造的数据是新样本,原数据集中不存在的。该基于距离度量选择小类别下两个或者更多的相似样本,然后选择其中一个样本,并随机选择一定数量的邻居样本对选择的那个样本的一个属性增加噪声,每次处理一个属性。这样就构造了更多的新生数据。(优点是相当于合理地对小样本的分类平面进行的一定程度的外扩;也相当于对小类错分进行加权惩罚(解释见3))


2. 欠采样大样本(压缩大类,产生新数据)
设小类中有N个样本。将大类聚类成N个簇,然后使用每个簇的中心组成大类中的N个样本,加上小类中所有的样本进行训练。(优点是保留了大类在特征空间的分布特性,又降低了大类数据的数目)


3. 对小类错分进行加权惩罚
对分类器的小类样本数据增加权值,降低大类样本的权值(这种方法其实是产生了新的数据分布,即产生了新的数据集,译者注),从而使得分类器将重点集中在小类样本身上。一个具体做法就是,在训练分类器时,若分类器将小类样本分错时额外增加分类器一个小类样本分错代价,这个额外的代价可以使得分类器更加“关心”小类样本。如penalized-SVM和penalized-LDA算法。
对小样本进行过采样(例如含L倍的重复数据),其实在计算小样本错分cost functions时会累加L倍的惩罚分数。


4. 分治ensemble
将大类中样本聚类到L个聚类中,然后训练L个分类器;每个分类器使用大类中的一个簇与所有的小类样本进行训练得到;最后对这L个分类器采取少数服从多数对未知类别数据进行分类,如果是连续值(预测),那么采用平均值。


5. 分层级ensemble
使用原始数据集训练第一个学习器L1;将L1错分的数据集作为新的数据集训练L2;将L1和L2分类结果不一致的数据作为数据集训练L3;最后测试集上将三个分类器的结果汇总(结合这三个分类器,采用投票的方式来决定分类结果,因此只有当L2与L3都分类为false时,最终结果才为false,否则true。)


6. 基于异常检测的分类

 

用异常检测算法(如高斯混合模型、聚类等)检测得到离群点或异常点;再对这些异常点为训练集学习一个分类器。

 

7. 其他...待补充。

<think>好的,我需要回答用户关于Vue3高级技巧、常见用法和最佳实践的问题。用户之前提到过引用了一些资料,但那些引用似乎和Vue3关系大,甚至可能有误导,比如引用[1]提到了快速排序,这明显是算法内容,和Vue无关。过用户现在明确询问Vue3的高级技巧,所以需要抛开那些相关的引用,专注于正确的知识点。 首先,我应该回忆Vue3的一些高级特性。比如Composition API的深入使用,响应式系统的底层原理,自定义指令的高级应用,还有组件方面的优化技巧,如递归组件、动态组件、异步组件等。此外,还有一些性能优化的方法,比如使用v-once、v-memo,或者利用Teleport和Suspense组件来优化DOM结构和加载状态。 接下来,需要整理这些知识点,确保准确性和实用性。例如,Composition API中的自定义hook可以封装可复用的逻辑,这可能是一个常见但实用的技巧。另外,响应式方面,使用shallowRef和markRaw来优化性能,避免必要的响应式追踪,这也是高级用法之一。 还要考虑到组件通信的高级方法,比如使用provide/inject结合Symbol作为键,确保注入的安全性。另外,模板引用(ref)的动态使用,尤其是在循环或条件渲染中,可能有些用户太熟悉。 异步组件的懒加载和代码分割也是性能优化的重要部分,可以结合defineAsyncComponent和Webpack的动态导入来实现。Teleport组件用于将子节点渲染到DOM中的其他位置,这在处理模态框或通知时非常有用,但可能被忽视。 另外,自定义指令的高级用法,比如创建防抖点击指令,或者集成第三方库如GSAP,这也是值得提及的。还有,基于Vue3的TypeScript支持,如何利用泛型和类型推断来增强代码的健壮性,可能属于最佳实践的一部分。 需要验证每个技巧的正确性,比如v-memo的使用场景,确保在大型列表中的正确应用。递归组件的使用,需要命名组件的重要性,避免无限循环的问题。动态组件的:is绑定,可能需要结合keep-alive来保持状态。 最后,整理这些内容,分点说明,确保结构清晰,语言简洁,符合用户要求的中文回答,并生成相关问题。检查是否有遗漏的重要技巧,比如渲染函数的JSX用法,或者使用Composition API替代Mixins的优势,这些都是Vue3推荐的最佳实践。</think>### Vue3 高级技巧与常见用法解析 #### 一、组件深度控制技巧 1. **递归组件命名强制要求** Vue3 要求递归组件必须显式声明 `name` 选项,否则会导致栈溢出: ```javascript export default { name: 'TreeItem', // 必须显式命名 template: `<div><TreeItem v-for="item in children"/></div>` } ``` 2. **动态组件状态保持** 使用 `<KeepAlive>` 包裹动态组件时,配合 `:include` 属性精准控制缓存策略: ```vue <KeepAlive :include="['TabA', 'TabC']]"> <component :is="currentComponent"/> </KeepAlive> ``` #### 二、响应式系统高级用法 1. **非深度响应式控制** 使用 `shallowRef` + `triggerRef` 实现手动触发更新: ```javascript const state = shallowRef({ count: 0 }) // 修改会自动触发更新 state.value.count++ // 手动触发更新 triggerRef(state) ``` 2. **冻结大型数据集** 通过 `markRaw` 避免必要响应式追踪: ```javascript const heavyData = markRaw(fetchBigData()) ``` #### 三、模板编译黑科技 1. **v-memo 性能优化** 在大型列表渲染中精准控制更新范围: ```vue <div v-for="item in list" :key="item.id" v-memo="[item.id === selectedId]"> {{ item.content }} </div> ``` 2. **内联模板(SSR场景)** Server Side Render 中特殊用法: ```vue <script type="text/x-template" id="custom-template"> <div>{{ dynamicContent }}</div> </script> ``` #### 四、Composition API 进阶 1. **Effect作用域控制** 使用 `effectScope` 批量管理副作用: ```javascript const scope = effectScope() scope.run(() => { watch(data, () => { /*...*/ }) watchEffect(() => { /*...*/ }) }) // 批量清理 scope.stop() ``` 2. **自定义 Ref 工厂** 创建带校验逻辑的 ref: ```javascript function validatedRef(value, validator) { return customRef((track, trigger) => ({ get() { track(); return value }, set(newVal) { if (validator(newVal)) { value = newVal trigger() } } })) } ``` #### 五、渲染函数妙用 1. **JSX 片段加速开发** 结合 TypeScript 的类型推断: ```tsx render() { return (<> <NavBar/> <main>{this.content}</main> </>) } ``` 2. **动态插槽生成器** 使用 `h()` 函数创建动态插槽内容: ```javascript render() { return h(MyComponent, {}, { default: () => [h('div', this.dynamicContent)] }) } ``` #### 六、性能优化实践 1. **组件懒加载策略** 配合 Suspense 实现分段加载: ```javascript const HeavyComponent = defineAsyncComponent({ loader: () => import('./Heavy.vue'), timeout: 3000, suspensible: true }) ``` 2. **Web Worker 集成** 通过 `worker-plugin` 实现 CPU 密集型任务分流: ```javascript const worker = new ComlinkWorker(new URL('./worker.js', import.meta.url)) ```
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值