一、概念
SMOTE(Synthetic Minority Over-sampling Technique)是一种用于处理不平衡数据集的过采样方法。SMOTE基于插值法。通过在少数类样本之间生成新的合成样本来增加少数类的数量,从而平衡数据集中的类别分布。因此,与简单的复制少数类样本不同,SMOTE通过生成新的样本来避免过拟合问题。
二、原理
SMOTE的基本思想是通过在少数类样本之间进行插值来生成新的样本,算法逻辑相对简单。具体步骤如下:
- 选择少数类样本:从少数类样本中随机选择一个样本
。
- 选择邻居样本:在少数类样本中找到
的 k 个最近邻样本,并从中随机选择一个邻居样本
。
- 生成新样本:通过在
和
之间进行线性插值生成一个新的样本。插值公式为