不平衡学习方法理论和实战总结

本文探讨了机器学习中样本不平衡问题,主要关注类别样本比率不平衡的情况。介绍了四种采样方法:随机重采样、随机欠采样、Synthetic Sampling with Data Generation和Adaptive Synthetic Sampling,并分析了各自的优缺点。此外,还讨论了代价学习策略,提出通过设置不同样本误判代价或使用投票策略来改善模型预测。引用了相关文献和开源代码资源。
摘要由CSDN通过智能技术生成

不平衡学习方法

机器学习中样本不平衡问题大致分为两方面:

(1)类别中样本比率不平衡,但是几个类别的样本都足够多;

(2)类别中某类样本较少。

对第二个问题,其实不是我们重点,因为样本不足的话,覆盖空间是很小,如果特征足够多的话,这种数据对模型学习的价值也不大,所以,对这个问题,好的方法只能是找尽量多的小类样本来覆盖样本空间。

现在主要讨论第一个问题。


采样方法

1. 随机重采样(random oversampling):

  样本不平衡时候,对小类样本就行随机重采样,以达到平衡。这种方法只是对小类样本进行简单的拷贝,缺点是容易over-fit,比如在决策树分类的时候,很有可能一个终端叶子节点的样本都是一个样本的拷贝而已,扩展性不足,这可能会提高模型训练的精度,但是对未知测试样本的预测可能是很差的。

   

2. 随机欠采样(random oversampling)

     样本不平衡时候,对大类样本就行随机欠采样,就是取部分大类样本,以达到平衡。欠采样的问题是对样本减少可能会缺失样本空间中重要数据,降低准确性。

 

3. Synthetic Sampling with Data Generation

  对小类样本进行近似数据样本生成。对小类样本计算KNN,找出K个相近样本,根据K

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值