处理非均衡问题的数据抽样方法

      一种针对非均衡问题调节分类器的方法,就是对分类器的训练数据进行改造。这可以通
欠抽样 undersampling )或者 过抽样 oversampling )来实现。过抽样意味着复制样例,而欠
抽样意味着删除样例。不管采用哪种方式,数据都会从原始形式改造为新形式。抽样过程则可以
通过随机方式或者某个预定方式来实现。
通常也会存在某个罕见的类别需要我们来识别,比如在信用卡欺诈当中。如前所述,正例类
别属于罕见类别。我们希望对于这种罕见类别能尽可能保留更多的信息,因此,我们应该保留正
例类别中的所有样例,而对反例类别进行欠抽样或者样例删除处理。这种方法的一个缺点就在于
要确定哪些样例需要进行剔除。但是,在选择剔除的样例中可能携带了剩余样例中并不包含的有
价值信息。
     上述问题的一种解决办法,就是选择那些离决策边界较远的样例进行删除。假定我们有一个
数据集,其中有
50 例信用卡欺诈交易和 5000 例合法交易。如果我们想要对合法交易样例进行欠抽
样处理,使得这两类数据比较均衡的话,那么我们就需要去掉
4950 个样例,而这些样例中可能包
含很多有价值的信息。这看上去有些极端,因此有一种替代的策略就是使用反例类别的欠抽样和
正例类别的过抽样相混合的方法。
      要对正例类别进行过抽样,我们可以复制已有样例或者加入与已有样例相似的点。一种方法
是加入已有数据点的插值点,但是这种做法可能会导致过拟合的问题。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值