【一步一步的积累】Synthetic Minority Over-sampling TEchnique

(JAIR 2002) SMOTE Synthetic Minority Over-sampling Technique

这篇文章讨论了样本不均衡问题。思路很简单清晰。

简单介绍一下:样本不均衡是指在分类过程中,有些类拥有大量的训练样本,有些类则只有少数的样本,让分类器学习起来很困难。而这样的情况又是最常见的,比如说二分类:要对图像中检测到的物体识别是苹果还是非苹果,那么非类作为负样本具有无穷尽的数据,而正样本则会相差很多。再比如图像是什么水果或者是不是水果这样的多分类,当我们希望用一个分类器来粗暴搞定的时候,突然发现样本数量相差巨大,(比如说有些稀有水果样本很少,苹果样本很多,不是水果的样本更多)。这个问题对于分类器来说就是灾难了。尤其是对于决策树或者神经网络这样的学习方式。文中说“A feed-forward neural network trained on an imbalanced dataset may not learn to discriminate enough between classes”。


解决的思路也是简单粗暴的:通常我们通过复制一定量的小样本(over-sampling)或者减少大样本(down-sampling)。后者是不推荐的,因为这样会减少数据覆盖的范围(当然如果对于负样本数据进行一定的降采样是必不可少的)。前者呢?又过于简单。文中"Minority over-sampling with replacement" 一节中就说到:对小量样本的类进行重复式扩充,在决策树当中,这样的分类会导致分类区域becomes more specific,并且导致新的小分界区域产生,换句话说,小样本的简单复制扩充,只是导致局部区域的重要性,而对整体的分布是没有影响的。而这样人为的加强了区域划分会导致overfitting的情况出现。

所以说简单的复制增加的方案不好。当然一般也不会使用那么粗暴的方案,尤其在图像领域,通常的方法是对图像做一些变换:位移,旋转,透视变换,颜色,光照等等。这样的变换在实践中有一定的效果,但是很多时候也会带入一些bias,因为人为制定的扩充方案未必是在feature空间上有效的分布(PS: 本文之后的一周的一个实验发现在一些case里面,常规变换扩展一定数量的样本的确是有帮助提高性能,但是扩展过多数量的样本并不会带来更好的效果)。所以作者则采用一种更general的方法:在feature空间进行变换。思路很简单:

  1. 首先要定一个feature空间(这一点在深度学习时就让人费解了,feature空间还没提出来,该如何定呢);
  2. 对每一个minority的类样本,在feature空间里,找到K个最紧邻;
  3. 对每一个最紧邻到目标样本计算一个方向vector,然后乘以(0,1)之间的一个比例,然后叠加到样本的各个feature维度上。这样就产生了一个新样本。

具体的伪代码文中有,这里就不赘述了。通过上面的步骤我们可以看出作者的目的是希望扩充的样本能尽可能的覆盖feature空间,然而这样可能需要有feature空间连续的假设(文中只取k个最紧邻就是一种局部假设);另外这样的“填充”其实未必对分界面有大的影响,只是对样本的“质量”加大了。当然样本的丰富肯定对分类器的学习肯定是有帮助的,但是合理的确定feature空间,k的取值看起来又是一个新的话题。


目前做过的项目都有这样的问题,有机会的时候,实际尝试一下。



  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值