对于Imbalance Data的总结

最新推荐文章于 2024-05-26 22:34:34 发布

skyadore

最新推荐文章于 2024-05-26 22:34:34 发布

阅读量2.2k

点赞数

文章标签： machine-learning imbalance sampling

本文链接：https://blog.csdn.net/u011854875/article/details/78449302

版权

本文总结了在imbalance数据问题中，如何利用上采样和下采样进行处理，重点介绍了SMOTE算法的原理和优缺点，以及改进版MSMOTE。此外，还探讨了Adasyn和基于聚类的重抽样方法。最后，讨论了imbalance学习的评价方法，包括正确率、F值、G-Mean和ROC曲线。

摘要由CSDN通过智能技术生成

在实际项目中，遇到的imbalance的情况有很多，常见的一个情况就是异常检测(Anomaly Detection). 针对常见的办法进行总结。

通常来说，遇到imbalance的情况可以用一下的方法：

通俗来说，上采样就是增加imbalance中的样本
下采样就是去把正样本给消减一部分内容.

然而这两种方法都有着本身的弊病:
上采样容易加入一些无关紧要的负样本，或者是已有负样本的重复，导致over fitting
下采样会把有用样本中的一部分有效的信息给消减下去

所以有2种算法能够在一定程度上缓和这种情况:

JAIR’2002的文章《SMOTE: Synthetic Minority Over-sampling Technique》提出了一种过采样算法SMOTE。概括来说，本算法基于“插值”来为少数类合成新的样本。下面介绍如何合成新的样本。

    设训练集的一个少数类的样本数为 TT ，那么SMOTE算法将为这个少数类合成 NTNT 个新样本。这里要求 NN 必须是正整数，如果给定的 N<1N<1 那么算法将“认为”少数类的样本数 T=NTT=NT ，并将强制 N=1。

考虑该少数类的一个样本 ii ，其特征向量为 xi,i∈{1,…,T}xi,i∈{1,…,T} ：

  1. 首先从该少数类的全部 TT 个样本中找到样本 xixi 的 kk 个近邻

关注