SMOTE过采样处理不均衡数据（imbalanced data）

最新推荐文章于 2024-10-18 09:57:55 发布

lijfrank

最新推荐文章于 2024-10-18 09:57:55 发布

阅读量1.7w

点赞数 32

分类专栏： DS/DP ML

本文链接：https://blog.csdn.net/Frank_LJiang/article/details/104427978

版权

ML 同时被 2 个专栏收录

38 篇文章

订阅专栏

DS/DP

3 篇文章

订阅专栏

引言

关于不均衡数据（imbalanced data）的相关介绍和处理方法，可以参见处理不均衡数据（imbalanced data）的几种方法，本文主要介绍SMOTE过采样（SMOTE: Synthetic Minority Over-sampling Technique）处理不均衡数据。

SMOTE全称是Synthetic Minority Oversampling Technique，即合成少数类过采样技术。它是基于随机过采样算法的一种改进方案，因为随机过采样算法容易产生模型过拟合的问题，使得模型学习到的信息过于特别(Specific)而不够泛化(generalization)。SMOTE 过采样通过添加生成的少数类样本改变不平衡数据集的数据分布，是改善不平衡数据分类模型性能的流行方法之一。SMOTE 通过线性插值的方法在两个少数类样本间合成新的样本，从而有效缓解了由随机过采样引起的过拟合问题。

基本思想

对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中。

算法实现

来自SMOTE 过采样及其改进算法研究综述

首先，从少数类样本中依次选取每个样本 $x_i$ 作为合成新样本的根样本；其次，根据向上采样倍率 $n$ ，从 $x_i$ 的同类别的 $k$ ( $k$ 一般为奇数，如 $k=5$ ) 个近邻样本中随机选择一个样本作为合成新样本的辅助样本，重复 $n$ 次；然后，在样本 $x_i$ 与每个辅助样本间通过式(1) 进行线性插值，最终生成 $n$ 个合成样本。

$x_{\text {new }, \text { attr }}=x_{i, \text { attr }}+\left(x_{i j, \text { attr }}-x_{i, \text { attr }}\right) \times \gamma$ （1）

其中， $\boldsymbol{x}_{i} \in \mathbf{R}^{d}$ ， $x_{i, \text { attr }}$ 是少数类中第 $i$ 个样本的第 $attr$ 个属性值， $attr $=1,2, \cdots, d$$ ； $\gamma$ 是[0, 1] 之间的随机数； ${x}_{i j}$ 是样本 $x_i$ 的第 $j$ 个近邻样本， $j=1,2, \cdots k$ ； $x_{new}$ 代表在 ${x}_{i j}$ 与 $x_i$ 之间合成的新样本。从式(1)可以看出，新样本 $x_{new}$ 是在样本 ${x}_{i j}$ 与 $x_i$ 之间插值得到的样本，其具体算法如下所示：

图 1 SMOTE 算法插值说明图

缺点

参见SMOTE 过采样及其改进算法研究综述

合成样本的质量问题
模糊类边界问题
少数类分布问题

SMOTE改进

改进算法	跟样本	辅助样本	解决方法	解决的问题
G-SMOTE	少数类样本	几何区域内的样本	在每个选定的少数类样本周围的几何区域内生成人工样本，加强了SMOTE 的数据生成机制	合成样本的质量问题
ADASYN	少数类样本	少数类样本	自适应地改变不同少数类样本的权重，自动地确定每个少数类样本需要合成新样本的数量	合成样本的质量问题
Safe-Level-SMOTE	少数类样本	安全系数高的少数类样本	在合成新样本前分别给每个少数类样本分配一个安全系数，新合成的样本更加接近安全系数高的样本	合成样本的质量问题、模糊类边界问题
Borderline-SMOTE	“Danger”类少数类样本	“Danger”类样本	根据SMOTE 插值原理，对属于“Danger”类少数类样本进行过采样，可增加用于确定分类边界的少数类样本	合成样本的质量问题
SMOM	少数类样本	安全方向的近邻样本	通过给每个少数类样本的k 个近邻方向分配不同的选择权重来改善SMOTE引起的过泛化问题	合成样本的质量问题、模糊类边界问题

其中“Danger”类样本是指靠近分类边界的样本。

欠采样与SMOTE 结合的方法

数据集中存在噪声样本时，采用SMOTE 过采样会加剧两类样本的重叠，融合欠采样和过采样的混合采样成为改进SMOTE 方法的一种新的思路。

算法名	欠采样方法	过采样方法	解决的问题
AdaBoost-SVM-MSA	直接删除法、约除法	SMOTE	①、②
BDSK	基于k-means欠采样	SMOTE	①
BMS	OSED随机欠采样	SMOTE	①、③
OSSU- SMOTEO	OSS	SMOTE	①、②
Hybrid Sampling[18]	DBSCAN、KNN欠采样	SMOTE	①、②
SDS-SMOT	SDS	SMOTE	②
SVM-HS	直接删除法	SMOTE	①

过滤技术与SMOTE 结合的方法

混合采样是克服不平衡问题中噪声样本的一种手段，然而结合噪声过滤技术同样可以消除由SMOTE 合成的错误样本，常见的过
滤技术包括基于粗糙集的过滤、数据清洗等。

算法名	过滤技术	过采样方法	解决的问题
SMOTE-RSB*	RST（粗糙集理论的编辑技术）	SMOTE	①、②
SMOTE-IPF	IPF（迭代分区滤波器）	SMOTE	①、②
BST-CF	CF（噪声过滤器）	SMOTE	②
SSMNFOS	SSM（随机灵敏度测量）	SMOTE	①、②
NN-FRIS-SMOTE	RSIS（模糊粗糙实例选择）	SMOTE	①、②
SMOTE-Tomek	Tomek（分属不同类别且距离最近的一对样本）	SMOTE	①、②
SMOTE-ENN	ENN（k-NN 方法分类）	SMOTE	②

聚类算法与SMOTE 结合的方法

聚类算法和SMOTE 结合是调整数据分布的另一种思路，其主要策略通常有两种：一是直接采用聚类算法将少数类样本划分成多个簇，在簇内进行插值；二是利用聚类算法识别样本类型，对不同类型的样本采用不同的方式处理，然后再使用SMOTE 进行过采样。

算法名	聚类算法	策略	解决的问题
MWMOTE	平均连接聚合聚类	簇内插值	③
FCMSMT	FCM	簇内插值	③
K-means SMOTE	K-means	簇内插值	①
CB-SMOTE	FCM	识别边界样本	①
CURE-SMOTE	CURE	识别噪声样本	①、②
HPM	DBSCAN	识别噪声样本	①、②
IDP-SMOTE	Improved-DP	识别噪声样本	①、③

面向特定应用背景的SMOTE

面向高维数据的SMOTE

高维不平横数据中的数据分布稀疏、特征冗余或特征不相关等问题是影响传统学习算法难以识别少数类样本的原因。目前的做法是在分类前使用现有的技术对数据进行降维，然后在新的维度空间下学习。

面向回归问题的SMOTE

不平衡数据的回归问题是指预测连续目标变量的罕见值的问题。回归问题可以分为两类：传统回归与序数回归。

（1）传统回归是指在不考虑数据集有序特性的情况下，对连续型目标变量的预测问题；

（2）序数回归则考虑数据集的有序特征，将原始数据的目标变量值按人为给定的阈值依次划分成多个有序的类标签，然后对这些类标签分类。在序数回归的有序类标签中，两端的类通常是极端情况，这类样本也占少数，因此序数回归本质上是一种类不平衡问题。

面向分类型数据的SMOTE

SMOTE 过采样是从特征的角度生成新样本，新样本的特征是从根样本与辅助样本对应的特征间插值产生，而插值的关键在于距离的度量。SMOTE过采样所选择的欧氏距离只能处理数值型数据，而对分类型数据过采样的方法有两种：分类型数据数值化和改进距离度量公式。

（1）分类型数据数值化方法对数值化后的数据使用SMOTE 插值，是处理分类型数据常用的方法之一。

（2）针对含有分类型属性的距离度量，现阶段已经得到了广泛研究，相比VDM 度量，HVDM(heterogeneous value difference metric) 度量[52] 在处理混合属性的数据时更具优势。其他处理含有分类型属性的距离度量包括Ahmad’s距离度量[53]、KL 散度[54] 以及基于context 的距离度量[55] 等。

SMOTE 研究展望

不平衡大数据

基于分布式计算的分类算法是处理大数据的主要解决思路。典型的分布式计算技术MapReduce及其开源实现Hadoop-MapReduce 为处理大数据提供了成熟的框架和平台。然而，在处理不平衡大数据时，由于高维、缺乏少数类样本等因素，以至于分布在每个站点的数据块所包含的少数类样本更少，而直接采用SMOTE 过采样将变得更加困难。

不平衡流数据

现实中的数据大多是以流的方式出现的动态数据，其数据分布也会随时间延续而不断变化。一方面，流数据的分布随时间而改变，导致内在结构不稳定从而产生概念漂移[58]。另一方面，由于缺乏先验知识，无法事先获取新增数据的类标签，导致数据的不平衡状态不稳定，无法确定哪个类是少数类或者多数类[59-60]。

集成框架下的代价敏感学习[61-62] 与SMOTE 预处理技术[63] 是解决上述问题的主要手段。

少量标签的不平衡数据

监督学习的重要前提是获得足够多的有标签数据来训练预测模型。然而现实中的数据通常是未经标记的无标签数据，有标签数据只占少数，且获得大量有标签数据非常困难。特别是在不平衡数据中，从少量少数类数据中获取带标签的数据更是难上加难。主动学习是处理这类问题的技术之一，通过引入专家知识对信息量大的无标签数据进行标记从而提高模型精度。半监督学习[57] 则是另一种
技术，该技术不依赖于外界交互，而是自动地利用无标签数据的内在信息改进分类模型，从而提高学习性能。