浅谈不平衡数据集的处理方法

本文介绍了不平衡数据集的问题及其在欺诈检测等场景中的应用。不平衡数据集的本质问题在于模型倾向于预测多数类,而非关注少数类。解决方案包括数据层面的过采样、欠采样和合成数据,以及算法层面的代价敏感学习、分治集成和分层级集成等方法。通过这些方法,可以提升少数类样本的预测准确性。
摘要由CSDN通过智能技术生成

因为最近实习需要进行一次技术分享,加上本身研究方向是抽样调查的逆抽样(针对总体中存在数量占比低于10%的稀有单元的情况),所以决定分享一下目前关于不平衡数据集的处理方法~

1、不平衡数据集的概述及出现场景

样本不平衡问题可以大致分为两种:
(1)不同类别中样本数比率不平衡,但这些类别中的样本量都时足够多的;
(2)存在某一类或多个类样本量较少(这种情况只能尽量补充该类的样本)

当处理分类不平衡数据集时,通常更加关注样本量较少的类别,说明模型正确预测少样本类别的能力比正确预测多样本类别更加重要。
例如:在信用卡欺诈检测的数据集中,大多数信用卡交易类型都不是欺诈,仅有很少一部分类型是欺诈交易,但欺诈交易的发生带来的影响是很严重的,因此引人注意

出现的场景:欺诈识别、索赔预测、流失预测、垃圾邮件检测、异常检测、离群值检测……

2、不平衡数据集的本质问题

假设数据集中有两个类: C 0 C_0 C0 C 1 C_1 C1,其中 C 0   N ( 0 , 4 ) C_0~N(0,4) C0 N(0,4) C 1   N ( 2 , 1 ) C_1~N(2,1) C1 N(2,1),且该数据集中90%的点来自于 C 0 C_0 C0,其余10%来自于 C 1 C_1 C1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值