为
了解决数据的非平衡
问题
,
2002
年
Chawla
提出了
SMOTE
算法,即合成少数
过
采
样
技
术
,它是基于随机
过
采
样
算法的一种改
进
方案。
该
技
术
是目前
处
理非平衡数据的常用手段,并
受到学
术
界和工
业
界的一致
认
同,接下来
简单
描述一下
该
算法的理
论
思想。
SMOTE
算法的基本思想就是
对
少数
类别样
本
进
行分析和模
拟
,并将人工模
拟
的新
样
本添
加到数据集中,
进
而使原始数据中的
类别
不再
严
重失衡。
该
算法的模
拟过
程采用了
KNN
技
术
,
模
拟
生成新
样
本的步
骤
如下:
(
1
)采
样
最
邻
近算法,
计
算出每个少数
类样
本的
K
个近
邻
。
(
2
)从
K
个近
邻
中随机挑
选
N
个
样
本
进
行随机
线
性插
值
。
(
3
)构造新的少数
类样
本。
(
4
)将新
样
本与原数据合成,
产
生新的
训练集。