Paper：Learning from Imbalanced Data - by H He et al.

最新推荐文章于 2024-09-13 22:28:35 发布

nana-li

最新推荐文章于 2024-09-13 22:28:35 发布

阅读量8.4k

点赞数 17

分类专栏：论文总结文章标签：不平衡数据

本文链接：https://blog.csdn.net/quiet_girl/article/details/77948345

版权

论文总结专栏收录该内容

2 篇文章 2 订阅

订阅专栏

论文链接：Learning from Imbalanced Data

一、基本概念

1、类间不平衡 VS. 类内不平衡

类间不平衡：不同类别之间的数据量相差较大。
类内不平衡：某一个类分布成多个小聚类，每个小聚类数据量相差较大。
如下图：
这里写图片描述
图(a)中圆形和五角星代表2个不同的类，他们的数目量相差较大，因此属于类间不平衡。
图(b)中：A代表圆形类中数量较大的圆形集合，D代表圆形类中数量较小的圆形集合。B代表五角星中数量较大的五角星集合，C代表五角星中数量较小的五角星集合。因此在这个图中，圆形和五角星分别存在类内不平衡，而且圆形和五角星存在类间不平衡。

1、内在不平衡 VS. 外在不平衡

内在不平衡：由于数据本身导致的数据不平衡，即数据本身存在正负样例差。
外在不平衡：除了数据本身之外，因为一些外界元素导致数据不平衡，如：时间、存储。举例：我们需要获取一段时间的持续的数据流，但是在这个时间段内传输出现中断问题，导致中断这个时间的数据缺失。

1、相对不平衡 VS. 绝对不平衡

绝对不平衡：由于正负样例之比较大，例如：正例10000个，负例100个，正负例之比为100：1，这种情况叫做相对不平衡。
相对不平衡：虽然正负样例之比较大，例如：正负样例之比为100：1，但是负样例本身数目很大，如2000个，这种情况叫做相对不平衡。
上图(a)和(b)都存在相对不平衡。

二、存在问题

1、单一的评价指标已经不能满足实际需求，因此需要提供更合适的评估指标，如ROC曲线等。
2、在实际应用中，数据的相对不平衡很常见，数据复杂度会增加训练难度，数据复杂性和数据不平衡互相影响。
3、数据重叠和数据代表性不足问题。如上图中(b)的C集合存在数据重叠问题。
4、样本数目较少。现阶段，比较常见的是数据维度高但是样本数目少，这样便很难使用算法来预测，因为很难从少量的数据中找到规则，目前针对这个问题的处理也有一些方法，如：主成分分析（PCA）。

三、解决方案

一开始使用决策树来解决这个问题，但是由于相对不平衡、绝对不平衡、类间不平衡和高维度的问题，使得决策树性能很差，因此，下面的一些方法被提出。

1、取样方法

取样方法：将不平衡数据通过某些方法变成平衡数据。

（1）随机过采样和欠采样

随机过采样（Random Oversampling）：向minority中添加数据，可通过复制minority数据等，使得minority和majority数目相等。 —-添加重复数据，导致数据过拟合（overfit）
随机欠采样（Random Undersampling）：从majority中减掉数据，使得minority和majority数目相等。 —-可能会丢失一些重要的数据。

（2）Informed Undersampling

Informed Undersampling主要有3种算法：EasyEnsemble、BalanceCascade、K-nearest neighbour（KNN）和one-sided selection（OSS），主要目的是克服传统随机欠采样导致的数据丢失问题。
EasyEnsemble：多次欠采样（放回采样）产生多个不同的训练集，进而训练多个不同的分类器，通过组合多个分类器的结果得到最终的结果。—-EasyEnsemble是非监督学习算法
BalanceCascade：先通过一次欠采样产生训练集，训练一个分类器，对于那些分类正确的majority样本不放回，然后对这个更小的majority样本下采样产生训练集，训练第二个分类器，以此类推，最终组合所有分类器的结果得到最终结果。 —-BalanceCascade是监督学习算法
KNN：使用K近邻的方法挑选出一些K个样本，至于什么算是邻近的样本，每个算法有不同的定义。

（3）Synthetic Sampling with Data Generation

synthetic minority oversampling technique（SMOTE）算法，算法在minority中，基于特征空间相似度，人工创造一些数据。如下图是SMOTE的过程：
这里写图片描述
图(a)表示对于这个不平衡数据，找出了x_i的K近邻（K=6），根据某个特定的公式，可以将需要创造的数据定位下来，如图(b)中的菱形即表示添加的数据。
但是，SMOTE容易出现过泛化和高方差的问题，而且，容易制造出重叠的数据。

（4）Adaptive Synthetic Sampling

为了克服SMOTE的缺点，Adaptive Synthetic Sampling方法被提出，主要包括：Borderline-SMOTE和Adaptive Synthetic Sampling（ADA-SYN）算法。
Borderline-SMOTE：对靠近边界的minority样本创造新数据。其与SMOTE的不同是：SMOTE是对每一个minority样本产生综合新样本，而Borderline-SMOTE仅对靠近边界的minority样本创造新数据。如下图，只对A中的部分数据进行操作：
这里写图片描述
ADA-SYN：根据majority和minority的密度分布，动态改变权重，决定要generate多少minority的新数据。

（5）Sampling with Data Cleaning Techniques

Tomek links用于去除重叠数据，其主要思想是：找出最近距离的2个样本（这2个样本属于不同的类），然后将这2个样本都去除，直到某一样本周围的近邻都是属于同一类。如下图：
这里写图片描述
图(a)表示原始数据，在原始数据中有数据重叠的现象；图(b)表示SMOTE之后的数据，比(a)中新添加了一些数据；图(a)表示Tomek links被找出；图(d)是删除Tomek links后的数据，可以看出，不同的聚类可以比较明显的分辨出。

（6）Cluster-based Sampling Method

基于聚类的采样算法（cluster-based sampling method，CBO）用来解决类内和类间数据的不平衡问题。其利用K-means技术，如下图，可以很好地解释CBO的原理：
这里写图片描述
图(a)表示原始数据；图(b)中C_A,…,C_E表示初始的聚类中心；图(c)中新的C_A,…,C_E表示更新过的聚类中心（根据欧氏距离）；图(d)中，基于图(c)我们知道最大数目的聚类是A，有20个样本，有圆形有3个聚类，所以圆形样本共20*3=60个，因此五角星每个聚类的样本数为60/2=30个。从图(d)最后的结果可以看出，相比较于原始数据，图(d)能更好地展现出少数类的分布。

（7）Integration of Sampling and Boosting

SMOTEBoost：基于SMOTE和Adaboost.M2的算法，其在boosting的每次迭代中都引入了SMOTE的方法，因此生成的每个分类器都集中于minority类，因为最后集成而得的分类器性能较好。
DataBoost-IM：其将数据生成技术和Adaboost.M1结合，在没有牺牲majority类准确度的情况下，提高minority的预测率。DataBoost-IM根据类间difficult-to-learn比率去生成综合样本。这种方法在解决强不平衡数据方面有很好的性能，但是可能依赖于较适合的数据生成方法。

2、代价敏感方法

采样方法主要考虑正负例的分布，而代价敏感方法主要考虑误分类样本的代价，通过代价矩阵来度量。

（1）代价矩阵

这里写图片描述
如上图：C(i, j)表示j类的样本被误分类为i类的代价。
在二元分类中，C(Min, Maj)表示Majority类的样本被误分类到Minority的代价，C(Maj, Min)表示Minority类的样本被误分类到Majority类的代价，因此C(Maj, Min)>C(Min, Maj)。
最终，判断的标准是使得所有样本的代价和尽可能小。（若被正确分类，则代价为0）。

（2）Cost-Sensitive Dataspace Weighting with Adaptive Boosting

3个代码敏感的Boosting函数，AdaC1、AdaC2、AdaC3。
AdaBoost.M1的主要思想是迭代更新训练集的分布。有几种不同的算法，它们的区别是将一个参数变量设置在指数外面、指数里面等。

（3）Cost-Sensitive Decision Trees

代价敏感的决策树应用主要有三种形式：（i）代价敏感调整可以用于决策阈值，使用ROC刻画性能取值范围，ROC曲线的特征点用作最后的阈值。（ii）对于每个节点的拆分标准，可以作为代价敏感的考虑因素。（iii）可以在决策树上应用代价敏感的剪枝。在不平衡数据，直接移除掉概率低于某一特定阈值的节点，会发现移除的数据大多都是minority的数据，因此，应将重点放在概率估计上，使得剪掉的是positive的数据。

Cost-Sensitive Neural Networks

代价敏感性在神经网络上的应用主要有4个方面：（i）代价敏感变更可以应用到概率评估上（ii）神经网络的输出也可以是代价敏感的（iii）代价敏感变更适用于学习参数（iv）最小误差函数可以用来预期代价。

3、基于核的算法和不平衡数据的积极学习算法

（1）基于核函数的采样算法：这里主要讲GSVM-RU（Granular Support Vector Machines-Repetitive Undersampling）算法，在此之前，先看GSVM算法的思想：（i）通过观察本地子集重要性和全局关联的trade-off分析内部数据的分布。（ii）通过使用平行计算提高计算效率。
GSVM-RU算法通过在欠采样过程中迭代学习步骤，充分利用了GSVM。因为在不平衡数据中，minority的数据认为是positive的，而线性SVM通过postive的sample和一些其他的sample训练。SVM将negative的sample标记为支持向量（因此叫做NLSVs），为了使训练集更小，这些negative的数据被移除。基于这个变小了的数据集，一个新的线性SVM和NLSV产生，并且NLSV形成的negative被移除，如此循环，得到多个negative的granular，最后，考虑全局关联的聚集操作被用来从这些迭代的negative granular中选择特定的样本集，将这些负样本和正样本组成训练集训练SVM模型。这样，GSVM-RU模型使用SVM去欠采样，形成多个信息颗粒，这些granular最后组合在一起训练SVM。
（2）有一些已有的对解决不平衡数据的基于核函数的算法的成果，和积极学习算法进行了论述。

4、关于不平衡学习的其他算法

一些文章概述。

四、不平衡数据评估指标

（1）单一评估指标、ROC曲线和PR曲线见机器学习：准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线
（2）除此之外，Cost Function也可以作为一个指标。
（3）对于多分类，可以使用n个ROC曲线，即将其中一类当做正例，其余类当做负例。

参考文章：
easy ensemble 算法和balance cascade算法
 如何解决机器学习中数据不平衡问题