训练数据样本不均衡问题的处理方法

最新推荐文章于 2024-09-22 16:58:49 发布

Dominic_S

最新推荐文章于 2024-09-22 16:58:49 发布

阅读量6.9k

点赞数 1

分类专栏：学习笔记文章标签：样本不均衡训练数据不平衡欠采样过采样机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Dominic_S/article/details/81941002

版权

样本不均衡问题在多种场景如搜索引擎点击预测、电商商品推荐、信用卡欺诈检测等中常见。处理方法包括采样和代价敏感学习。采样分为随机欠采样和过采样，如SMOTE技术。代价敏感学习则通过调整权重或后处理阶段优化模型以适应不平衡数据。

摘要由CSDN通过智能技术生成

训练数据样本不均衡问题的处理方法

1 不均衡数据出现场景

1）搜索引擎的点击预测（网页上推送的广告很多，但被点击的概率往往非常小）
2）电子商务领域的商品推荐（网购平台会推送各种商品，但商品实际被购买的比例很低）
3）信用卡欺诈检测（办理信用卡的用户中，正常合法的用户群占绝大多数，而利用欺诈手段办理信用卡业务的用户很少，建立并训练欺诈检测时样本很不均衡）
4）网络攻击识别
5）疾病诊断等

有时候我们更关心的不是大多数样本发生的概率，而是低概率发生的事件。如上述的信用卡欺诈检测，我们更关心有欺诈动机的用户。如果训练好模型使用预测准确率做评价指标，模型把所有的用户都预测为合法办理，由于绝大部分用户是合法办理信用卡，模型得到的预测准确率可能达到99%，但显然这个模型对于解决欺诈的实际问题并没有意义。

2 不均衡数据处理方法

数据角度：抽样，使数据相对平衡
算法角度：考虑不同误差分类情况代价的差异性对算法进行优化

2.1 采样

2.1.1 随机欠采样

1）方法：从多数类样本中随机选择少量的样本，和原本少数类样本进行合并，得到新的训练数据集，具体可以使用有放回采样、无放回采样等
2）缺点：会造成多数类样本的信息缺失，选取的样本会有偏差
3）解决：使用集成学习算法<

最低0.47元/天解锁文章

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。