浅谈不平衡数据集的处理方法

momokofly

于 2021-08-05 11:00:27 发布

阅读量2.2k

点赞数 2

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/momokofly/article/details/119386376

版权

本文介绍了不平衡数据集的问题及其在欺诈检测等场景中的应用。不平衡数据集的本质问题在于模型倾向于预测多数类，而非关注少数类。解决方案包括数据层面的过采样、欠采样和合成数据，以及算法层面的代价敏感学习、分治集成和分层级集成等方法。通过这些方法，可以提升少数类样本的预测准确性。

摘要由CSDN通过智能技术生成

因为最近实习需要进行一次技术分享，加上本身研究方向是抽样调查的逆抽样（针对总体中存在数量占比低于10%的稀有单元的情况），所以决定分享一下目前关于不平衡数据集的处理方法~

1、不平衡数据集的概述及出现场景

样本不平衡问题可以大致分为两种：
（1）不同类别中样本数比率不平衡，但这些类别中的样本量都时足够多的；
（2）存在某一类或多个类样本量较少（这种情况只能尽量补充该类的样本）

当处理分类不平衡数据集时，通常更加关注样本量较少的类别，说明模型正确预测少样本类别的能力比正确预测多样本类别更加重要。
例如：在信用卡欺诈检测的数据集中，大多数信用卡交易类型都不是欺诈，仅有很少一部分类型是欺诈交易，但欺诈交易的发生带来的影响是很严重的，因此引人注意

出现的场景：欺诈识别、索赔预测、流失预测、垃圾邮件检测、异常检测、离群值检测……

2、不平衡数据集的本质问题

假设数据集中有两个类： $C_0$ 和 $C_1$ ，其中 $C_0~N(0,4)$ ， $C_1~N(2,1)$ ，且该数据集中90%的点来自于 $C_0$ ，其余10%来自于 $C_1$

最低0.47元/天解锁文章

关注

2
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。