如何处理分类中的训练数据集不均衡问题

本文参考自:http://blog.csdn.net/heyongluoyao8/article/details/49408131,有删改。

什么是数据不均衡?

在分类中,训练数据不均衡是指不同类别下的样本数目相差巨大。举两个例子:
①在一个二分类问题中,训练集中class 1的样本数比上class 2的样本数的比值为60:1。使用逻辑回归进行分类,最后结果是其忽略了class 2,将所有的训练样本都分类为class 1。
②在三分类问题中,三个类别分别为A,B,C,训练集中A类的样本占70%,B类的样本占25%,C类的样本占5%。最后我的分类器对类A的样本过拟合了,而对其它两个类别的样本欠拟合。
实际上,训练数据不均衡是常见并且合理的情况。举两个例子:
①在欺诈交易识别中,绝大部分交易是正常的,只有极少部分的交易属于欺诈交易。
②在客户流失问题中,绝大部分的客户是会继续享受其服务的(非流失对象),只有极少数部分的客户不会再继续享受其服务(流失对象)。
那么训练数据不均衡会导致什么问题呢?
如果训练集的90%的样本是属于同一个类的,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值