(1)现有的研究
处理类不平衡的方法要么改变算法本身,要么把不同类的错误分类成本纳入分类过程,要么修改用于训练分类器的数据。重新采样训练数据可以过采样或欠采样。过采样技术要么重复现有样本,要么生成人工数据。SMOTE算法被提出用来避免随机过采样带来的过拟合问题。SMOTE不仅仅复制现有的观察结果,而是生成样本。具体来说,SMOTE随机选择的少数类别样本及其邻近的少数类别样本之间进行线性插值。SMOTE算法存在以下三方面的问题:
①该算法存在一些处理不平衡和噪声的弱点。该方法有效地对抗类间不平衡,但是忽略了类间不平衡和小分离的问题。
②另一个问题是SMOTE可能会进一步放大数据中存在的噪声。当线性插入多数类实例中的噪声少数类样本及其最近的少数类样本邻居时,可能会发生这个问题。该方法易受到噪声产生的影响,因为它不会将重叠的类区域与所谓的安全区域区分开来。
③最后,该算法没有具体强制执行决策边界,远离类边界的实例会被过采样。
尽管存在缺点,但SMOTE已经被研究人员和从业者广泛采用,现已开发了许多技术扩展,旨在消除其缺点。通常这样的扩展只解决了原始方法的缺点之一。比如说,borederline-SMOTE是一种强调类边界的方法;Cluster-SMOTE是强调某些类区域的方法,使用k-means对少数类进行聚类,在聚类后找到的簇中应用SMOTE。
总之,最近有很多旨在改进不平衡数据集过采样的研究。一些提出的方法在应用随机过采样或SMOTE之前采用聚类技术。虽然它们中的大多数都设法克服现有过采样算法的一些弱点,但是没有一个能够避免产生噪声并同时减轻类内的不平衡。另外,许多技术以高复杂性为代价实现了它们的各自改进,使得这些技术难以实现和使用。
(2)KMeansSMOTE
KMeansSMOTE采用简单和流行的k-means聚类算法结合SMOTE过采样,以重新平衡数据集。它设法通过仅在安全区域进行过采样来避免产生噪声。此外,它的重点是类别间的不平衡和类别内的不平衡,通过使稀疏的少数类别样本增加来对抗小的分离问题。由于其简单性和kmeans以及SMOTE的广泛可用性,该方法易于实现。它与相关方法的不同之处不仅在于其复杂度低,而且还因为其基于聚类分布生成样本。
KMeansSMOTE包括三个步骤:聚类、过滤和过采样。在聚类步骤中,使用k均值聚类为k个组。过滤选择用于过采样的簇,保留具有高比例的少数类样本的簇。然后,它分配合成样本的数量,将更多样本分配给少数样本稀疏分布的群集。最后,过采样步骤,在每个选定的簇中应用SMOTE以实现少数和多数实例的目标比率。
原文:https://blog.csdn.net/zjx459754206/article/details/81213778