13.解决样本不均衡问题

最新推荐文章于 2022-04-08 21:42:27 发布

haidixipan

最新推荐文章于 2022-04-08 21:42:27 发布

阅读量733

点赞数

分类专栏：技术面试文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haidixipan/article/details/83824339

版权

技术面试专栏收录该内容

57 篇文章 1 订阅

订阅专栏

实际工作中经常遇到样本不均衡问题，比如某P2P平台预测用户信誉，1为信誉良好，0为有违约记录，样本采集下来为1的样本占绝大多数（比如90%），此时如果你用分类模型，目标函数是准确率，那么即使你全部预测为1，那么准确率也为90%，会极大的影响模型效果。

因此在我们在训练模型之前，先要处理样本均衡的问题，总结方法如下：

1.上下采样：上采样为增加小众样本数量（一份数据复制多份），下采样为减少大众样本数量（剔除部分样本），上采样的问题是如果运气好那么一下会预测对很多点，运气差则全部预测错，常用的方法是在上采样的基础上增加一点扰动。

2.数据合成：比如图形问题，可以对小众样本图形旋转一定角度变成新的样本。

这里提到smote算法。smote在小众类中K近邻随机选一个点，增加一些扰动生成新的点。

3.加权。即增加小众样本的权重（这点联想到GBDT那里增加预测错误样本的权重），但是难点在权重如何定。

还有人推荐如下链接：https://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/

文章大概介绍的思想是：

1.能否再多采集一些数据，让小众样本足够多

2.换一种目标函数，比如准确率会有偏差，那么换成ROC，recall试试

3.上下采样的思想

4.数据合成的思想

5.用用对样本分布不敏感的模型，如树模型

6.尝试Penalized类模型（会对分错的小众类很高的惩罚）如 penalized-SVM and penalized-LDA

7.对分布极不均衡的样本，可以转换为求异常值

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
13.解决样本不均衡问题

实际工作中经常遇到样本不均衡问题，比如某P2P平台预测用户信誉，1为信誉良好，0为有违约记录，样本采集下来为1的样本占绝大多数（比如90%），此时如果你用分类模型，目标函数是准确率，那么即使你全部预测为1，那么准确率也为90%，会极大的影响模型效果。因此在我们在训练模型之前，先要处理样本均衡的问题，总结方法如下：1.上下采样：上采样为增加小众样本数量（一份数据复制多份），下采样为减少大众样...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。