SMOTE介绍
建立机器学习模型时会遇到的一个典型问题是处理不平衡的数据集,其中关注的标签极少,即欺诈检测。 在偏见数据集上直接应用机器学习模型可能会在预测少数族裔标签方面获得不良结果。 原因很简单,因为模型很少看到小班级的训练样本,当然,当出现看不见的数据点时,很难区分它们。
为了解决不平衡数据集带来的问题,将需要更多次要类的数据点。 除了上采样和下采样之类的常规方法外,SMOTE可能是一个更明智的选择,因为它只需重复现有数据即可生成数据点。 在本文中,我们将深入探讨SMOTE的逻辑,并通过直观地查看示例生成来更好地理解。
SMOTE的想法
SMOTE,也称为合成少数族裔过采样技术,正如其名称听起来一样,是对少数族裔类进行过度采样的技术。 它遵循以下步骤:
· 对于每个少数族裔类别,找到其k最近邻
· 从其邻居中选择一个,并在邻居和原始点之间画一条线
· 随机选择直线上的一个点(等于选择一个介于0和1之间的比率参数,然后应用该比率来获得这些点之间的点)
· 重复直到达到预期的样本数量
因此