对"样本不均衡"一顿操作

最新推荐文章于 2023-08-02 15:57:15 发布

炼丹笔记

最新推荐文章于 2023-08-02 15:57:15 发布

阅读量379

点赞数 1

文章标签： python 机器学习深度学习人工智能 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_52122378/article/details/116007787

版权

本文探讨了样本不均衡问题对机器学习模型的影响，并介绍了多种处理策略，包括重采样方法如随机过/降采样、SMOTE、NearMiss，Tomek links，以及评估指标选择、模型融合和正确使用K-fold等。强调解决样本不均衡问题需要结合多种方法并进行实验对比。

摘要由CSDN通过智能技术生成

样本不均的问题大家已经很常见了，我们总是能看到某一个类目的数量远高于其他类目，举个例子，曝光转化数远低于曝光未转化数。样本不均严重影响了模型的效果，甚至影响到我们对模型好坏的判断，因为模型对占比比较高的类目准确率非常高，对占比很低的类目预估的偏差特别大，但是由于占比较高的类目对loss/metric影响较大，我们会认为得到了一个较优的模型。比如像是异常检测问题，我们直接返回没有异常，也能得到一个很高的准确率。

重采样

这个是目前使用频率最高的方式，可以对“多数”样本降采样，也可以对“少数”样本过采样，如下图所示：

重采样的缺点也比较明显，过采样对少数样本"过度捕捞"，降采样会丢失大量信息。

重采样的方案也有很多，最简单的就是随机过采样/降采样，使得各个类别的数量大致相同。还有一些复杂的采样方式，比如先对样本聚类，在需要降采样的样本上，按类别进行降采样，这样能丢失较少的信息。过采样的话，可以不用简单的copy，可以加一点点"噪声"，生成更多的样本。

Tomek links

Tomek连接指的是在空间上"最近"的样本，但是是不同类别的样本

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
对"样本不均衡"一顿操作

样本不均的问题大家已经很常见了，我们总是能看到某一个类目的数量远高于其他类目，举个例子，曝光转化数远低于曝光未转化数。样本不均严重影响了模型的效果，甚至影响到我们对模型好坏的判断，因为模型对占比比较高的类目准确率非常高，对占比很低的类目预估的偏差特别大，但是由于占比较高的类目对loss/metric影响较大，我们会认为得到了一个较优的模型。比如像是异常检测问题，我们直接返回没有异常，也能得到一个很...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。