SWIM论文

Synthetic oversampling with the majority class: A new perspective on handling extreme imbalance

多数派综合抽样:处理极端失衡的新视角

摘要:

不平衡问题是现实世界的普遍问题,当前解决不平衡问题最流行的方法是通过过采样方法生成合成数据来增加少数类。但是,他们将注意力集中在少数类的特征上,并使用他们来指导过采样过程。通过完全忽略多数类,他们就在分类问题中失去了全局的观点。在缓解类不平衡问题上也会生成边界或重叠的样本,从而削弱分类的学习能力。当面对极端不平衡时,这会变得更加重要,由于少数类代表性不足,用本身不能包含足够的信息来进行过采样处理。因此,我们提出一个新的方法——使用多数类本身丰富的信息合成少数类的数据来过采样。这是通过生成与已知的少数群体实例位于与多数类相同的mahalanbois距离的合成数据来实现的。我们测试了超过26个基准数据集,并展示我们方法在过采样上表现出明显的性能提升。

  1. Introduction

罕见的事件往往与高风险和很少了解的来源,或它们最终将采取的形式有关。示范性领域包括故障检测[25]、疾病分类[20]、软件故障[8]和客户流失预测[9]。在这些领域和许多其他领域中,有一个类比另一个类的先验概率要大得多;这就是所谓的类不平衡问题。众所周知,这种情况会带来具有挑战性的分类问题,从而导致二进制分类器性能的显著下降。

鉴于类不平衡问题在实际领域中的频繁性和重要性,许多提高二进制分类器对不平衡的鲁棒性的方法一直在研究和进展。过采样生成数据在近些年研究中占据一个大的比例。它在非极端不平衡情况下减轻类别不平衡的影响的效果表现的很好。然而,许多表现极端不平衡真实场景应用,这既是相对的,类别之间比例非常高超过1:1000,还能是绝对的,当少数类别的数目可用的很少。例如:。。。软件故障预测领域可能表现出极端绝对不平衡,NASA公开提供数据集超过1500无缺陷的样本,但是只有16个缺陷样本。在这种情况下,我们所拥有少数类通常太重要而不能忽略,并且他们应该以最有效的方式来构建分类器。不幸的是,基于他们的稀缺,没有足够的信息来作为综合其他训练实例,现存的方法如SMOTE,可能损害分类的性能。

    在本文中,我们提出问题:是否存在一个在极端不平衡领域中可以对少数类有效的过采样方法?我们研究证明答案是肯定的,并且关键在于利用多数类的分布信息来生成少数类样本数据。虽然有些SMOTE变体利用多数类训练实例来指引事后清理的生成过程,如Borderline SMOTE 或者SMOTE删除线和最近邻编辑。过采样过程仍然主要依靠少数类数据。在极端不平衡下,少数类的少数样本提供分布信息最小,并且信息可能会由于稀缺性、稀疏性和噪声产生误导。这会导致传统过采样方法生成错误的训练实例来损害分类器。

          我们提出一种以多数类样本为中心的策略来扩大少数类,并命名为SWIM(Sampling With the Majority)。SWIM是直接的,易于扩展并且在极端不平衡领域表现很好。他建立在这样的基础上:a) 生成的少数类实例应在数据空间中与实际少数类样本密度相似的区域生成;b) 他们应该在靠近真实少数类实例的区域生成。具体而言,我们应该问:在给定多数类数据和少数类实例相对位置下,应在哪里生成新的少数类实例;而不是给定少数类数据,应在哪里生成新的少数类实例。我们方法不要求知道少数类的分布,存在的少数类样本是简单的指标,关键是,少数类应对与多数类的位置。因此,我们限制了生成少数类样本,方法是将生成引导到相对于多数类别具有战略位置的区域。

一般来说,这可以通过以下步骤来总结:1)估计多数样本类的PDF p+ ();2)生成小样本实例x'_从一个随机小样本x_作为x’_=x_+r,r是从x_移动到一个数据空间相邻位置 (见下)

这也就是说,x’_和x_是数据空间中相邻区域的点,和多数类相比他们有相同的概率密度。这与图中SMOTE及其拓展做了比较,SMOTE和拓展是用于合成少数过采样的标准方法,图一中用于一般情况。

我们使用基于马氏距离的方法将SWIM正式化。每个给定的少数类实例的马氏距离对应于多数类周围的一个超椭圆密度等值线,我们通过沿这些等高线生成合成样本来增加少数类实例。通过在少数类实例形成的凸包之外生成合成样本,这有助于克服基于SMOTE的方法的两个众所周知的限制,并防止它们在多数类的较高概率区域生成。使用马氏距离对多数类进行建模涉及到关于数据的高斯属性的隐式假设。虽然实际数据并不总是严格满足高斯假设,但马氏距离在数据挖掘和机器学习中的各种离群点检测和分类问题上都表现得很好。这和我们结果一起证明,在基本假设(我们在第5节-b部分讨论了这一点和如何处理复杂非高斯数据的方法)下,我们方法是鲁棒的。

我们总结了本文的贡献如下:我们强调,考虑到多数类实例的分布,可能对过采样样过程有很大的好处。我们开发了一种基于马氏距离的SWIM法,用于过采样少数类样本,在生成过程中明确使用多数类。我们证明,使用所提议的方法可以为极端失衡水平产生有益的合成实例。我们比较了在高度不平衡的基准数据集上,合成少数过度采样方面SWIM的性能和最先进的方法的优劣。

  1. 相关工作

    本文主要研究高度不平衡区域上的有监督的二分类问题。二分类过程采用训练集Xn*m∈R和相应的标号Yn∈{0,1}。目的是导出一个函数fXiYi,它将训练实例Xi∈X 映射到相应的类标签yi∈Y。在少数类xmin,y=1的例子很少的不平衡区域,这个问题比多数类xmaj y=0更具有挑战性。这导致诱导分类器f(.)向更大类倾斜,从而导致性能较差[15]。

    处理不平衡分类问题的范式有两种。当少数类很少见或不可用时,应用单类分类。然而,随着实例数量的增加,二分类学习迅速变得有效 [5]。这激发了使用采样和基于成本的方法在日益不平衡的域上扩展二进制分类器的使用范围的研究。[24]。本文主要研究过采样方法。

    最基本的再采样策略是随机欠采样(RUS)和随机过采样(ROS)。这些均衡类分布是通过随机丢弃多数类的实例,和/或随机复制少数类的实例来实现的。然而,这些战略分别遭受信息损失和过度适应的风险。

为了避免这些缺点,扩大少数群体训练实例占用的数据空间区域,提出了综合的少数类的过采样技术[11]。它通过在训练集中的少数类实例集合中最近邻之间插入合成的实例来产生均衡的训练集。这一过程完全依赖于少数类实例;结果是,由此产生的综合数据位于少数类形成的凸包内(意思是会密集)。此外,忽略多数类实例,Smote实际上可能会增加类之间的重叠。因此,在极不平衡的情况下,人工合成的数据集有损害性能的风险。

SMOTE的成功,加上对其局限性的认识,产生了大量的变体[13]。它们的主要重点是删除(clean)被认为对分类器的归纳有害的SMOTE生成的实例,并将合成实例指引到将纠正分类偏差的数据空间的区域。这些较新的方法通过使用欧氏距离k近邻和/或计算局部邻域的密度/类分布,对多数类进行了不一致的评级。这将大多数类信息降至一个特殊的清理过程[3],例如删除Tomek links和最近邻编辑[23],或者指导基于围绕少数类实例的生成过程,而不是全局视角(全局数据)。下面是个例子,使用自适应合成过采样(ADASYN)、边线平滑和多数加权少数过采样技术[2]、[14]、[16];使用的唯一多数类信息是生成样本的局部邻域内存在的信息。在这些方法中,少数类数据的分布仍然是生成过程的关键组成部分。因此,少数类样本数量不足将对生成过程产生不利影响。

除了依赖于欧几里德距离k近邻SMOTE的方法。Abdi建议将马氏距离用于合成少数类过采样。与我们的方法的基本区别是,他们没有利用大多数类别的信息。相反,它们使用基于小规模和潜在容易出错的少数类训练集计算的马氏距离生成合成样本;新的样本是参考少数类的均值点在同一MD生成的少数点。因此,由于训练集中少数类数据缺乏的局限性,该方法容易失败,因为估计的均值矩阵和协方差矩阵不能代表潜在的少数分布。

在他们的核心,目前所有的先进水平的过度抽样方法仍然依赖于少数类实例的代表性,来产生一个有效的合成集。不同的是,我们的方法不对少数类表示什么作出任何假设,除非现有样本相对于多数类定位。生成合成样本的信息来源于数量多的多数类,因此,我们的方法对于少数类稀疏的分类问题是有效的,这是一种既普遍又重要的情况。

  1. 方法

在这一节中,我们描述并讨论了我们提出的SWIM的影响.我们首先简要概述了Mahalanobis距离,然后描述了我们的过采样算法,并讨论了我们的方法的有效性。

  1. Mahanobis 距离

MD提供分布平均值与查询点之间距离的计算,这说明了路径上的密度。因此,如果两个点位于相同的超椭圆密度等值线上,它们的MD与平均值相同。这与图中的欧几里德距离作了对比。

MD的计算涉及到已知的分布的均值μ和协方差矩阵∑。然而,在实际应用中,这些参数被估计为样本总体上的μ。之后,更大、更有代表性的集合,例如大多数类培训数据中的典型集合,可以更好地估计这些参数。一旦参数被估计了,实例x的MD从平均值μ计算为:MDx,μ=x-μT-1(x-μ)

  1. 算法

该算法基于一种直觉,即在相对于多数类的相似密度区域(等高线)生成合成的少数类的实例来作为真实的少数类实例。这是因为,仅考虑到少数类实例,就不会有足够的分布信息来确定应该在哪里生成合成实例。然而,如果我们看看这些数据是如何相对于绝大多数类分布的,那么就可以生成合成数据,使其类似于大多数类的分布。在缺乏更多的少数类数据的情况下,这种相对分布信息是生成合成数据的最有用的知识。

现在,我们详细说明使用SWIM来进行过采样的每个步骤。假设MD的参数已在多数类A的基础上估计得到,使用少数类B中父样本x生成新样本Snew的概述如下:

  1. 中心化多数类和少数类群体:数据的中心化简化了距离的计算;这点在第四步中(我们生成一个新的样本点)很明显。设μa是大多数a类的特征均值向量,我们以多数类为中心,使其具有0均值,然后以多数类的均值向量为中心,对少数类进行中心化。

Ac=A-μa

Bc=B-μa

  1. Whiten少数类:让表示Ac的余弦矩阵,并且-1 表示他的逆。我们whiten已经中心化的少数类Bw=Bc-12。马氏距离等价于分布在whitenend空间中的欧式距离。因此,通过白化,我们简化了生成合成数据的计算(在第四步中证实)
  2. 发现特征边界:这些被用来限制合成样本的边界的扩张。对于Bw中的每个特征f,我们得到了它的均值μf和标准差σf。然后,我们计算了它们的上界值uf和下界值lf,如下所示

uf=μfσf

lf=μfσf

α∈R控制我们想要的边界的标准差的数目。因此,α值越大,沿相应密度等高线的传播量就越大。

  1. 生成新的样本:对于每个特征f,我们在uf和lf之间生成一个随机数。因此,我们得到了一个样本点s,其中每个特征sf是lf≤sf≤uf。这个过程可以重复t次,其中t是根据参考基准x生成的人工实例的期望数量。对于白化空间中的每个少数参考数据,我们生成与多数类的平均值相同的欧几里德距离的样本。由于我们以数据为中心,这意味着新样本将具有与少数数据相同的欧氏范数。因此,我们将S变换为:

snorm=sx2s2

  1. 尺度样本返回原始空间:snorm存在于少数类的白化空间中,与平均向量0的欧几里德距离与白化空间中的x相同。我们现在必须把这个点转换回原来的空间。公式表示:

Snew=-12 )-1snorm

其中,合成样本的新值Snew将与其父少数实例x处于相同的密度等高线中。

由于该方法涉及矩阵逆的计算,如果存在线性相关的列,则计算将失败。为了处理这种情况,我们检查了多数类A的秩rank r。如果r<d,其中d是a的维数,然后计算a的QR-分解。生成的上三角矩阵的非零值对应于a的线性独立的列。使用上述步骤,我们可以在由这些列所表示的特性定义的子空间中对数据进行过度采样和分类。

C.SWIM vs. SMOTE

现在我们来看看SWIM的生成过程和SMOTE家族在极端不平衡的算法的表现。具体来说,我们考察了每种方法合成人工数据的位置;为了诱导出健壮的二进制分类器,必须在与真实少数类分布相对应的区域合成数据。

方法之间的主要区别在于,Smote及其所有变体依赖于少数类去确定合成实例应在何处生成,而SWIM使用多数类的分布和少数类实例的相对位置。在极端不平衡的情况下,这种根本差异的结果可能是惊人的。为了演示,我们创建了一个复杂的,高度不平衡的人工数据集,其中包括三个少数类训练实例和300个多数训练实例。为了产生有代表性的结果,我们在每个类中创建了一个包含300个实例的平衡测试集。演示如图3所示;该图显示了在一个极其不平衡的域上使用SWIM(左上)和Smote(右上)进行合成过度采样的结果。对于完备性,我们还展示了二分类的结果。

          由Smote合成的实例仅限于由少数训练数据的凸包形成的小区域;或者,使用SWIM使合成实例沿着与来自多数类的少数数据的MD相对应的密度等值线传播,我们可以从三个分类器诱导的决策曲面(以图中的阴影表示)中看到结果。利用多数类中的信息,我们的方法产生可以得到一个更有代表性的决策面样本,从而获得更好的分类性能。

每个可视化的二分类支持向量分类器在300个少数和多数类实例上进行了测试。因为这是一个人为的分类问题,是为了演示相互竞争的方法,所以我们可以访问一个平衡的测试集。在给定平衡测试集的情况下,我们可以自信地比较各种方法的准确性。基础分类器的精度较低,为0.69。将Smote生成的实例添加到培训集中,将性能提高到0.86,然而,通过SWIM生成的实例的添加将准确率提高到0.95。

4.实验框架

    为了评价所提出的系统,我们用最先进的过采样方法和SWIM方法比较了二值分类器在数据重采样上的性能

Dataset表一列出了我们评价中使用的26个基准数据集。之所以选择这些,是因为它们在极端绝对不平衡水平(少数类训练样本少于10个)中具有较高的不平衡比率(>1:100),以及各种不同的维度和大小,以反映现实世界。我们随机抽取少数类的样本,在训练集中模拟不同层次的极端不平衡。具体来说,我们在三个不同的级别进行测试,少数类训练集的大小分别为4、7和10

Classification我们的实验包括二分类器和抽样方法。所使用的二值分类器有:Naive Bayes(NB)、最近邻(IBK)、决策树(J48)、多层感知(MLP)和支持向量机(SVM)。在抽样方法上,我们采用随机过采样和欠采样,Smote(k=3,5,7),Borderline Smote(b1,b2),SMOTE with one-sided selection with Tomek links(带有Tomek链路的单边选择)和adaptive synthetic sampling(自适应合成抽样)[16]。我们使用python中的sklearning包进行实验;所有分类器都使用它们的默认设置运行。数据在训练和测试之前是标准化的。

Evaluation:用TP和TN的几何均值来评价分类器的性能[18]。给出了g-mean=TPR*TNR,其中TPR为TP率,TNR为TN率。因为每个类别都是分开处理的,所以它对不平衡是免疫的。评估的方法是将数据随机分成同等的训练和测试部分,然后随机删除少数类训练实例,以达到期望的绝对不平衡水平。该过程随机重复30次,以确保在小少数训练集可能造成较大差异的情况下,精确估计g-均值。

5.结果

本文首先考察了我们所面临的主要问题:在极端不平衡的情况下,我们提出的方法,SMOTE如何与现有的最先进的再采样方法进行比较。表二列出了在不执行采样的情况下,通过我们的方法获得的各种数据集的g-均值、SMIM和性能最好的重采样方法(ALT)和基线(baseline)分类器(基线)。我们有兴趣比较SWIM和二分类再抽样方法,从而报告分类器和SWIM的最佳组合的平均g-均值,以及分类器和二分类再采样的最佳组合的平均g-均值

    这些结果表明,在极端不平衡的情况下,SWIM优于最佳选择。特别是,在26个数据集中的23个数据集上,SWIM优于竞争方法。

    此外,我们还评估了涉及7和10个少数训练样本的不平衡情况;它们在所有数据集上呈现极端绝对不平衡,但它们的极端不平衡比率略低一些。具体来说,在这些小规模的培训集中,只有不到一半的数据集的不平衡比率大于1:100。

    ·样本10:在26个数据集中,14组数据的g均值较高。然而,大多数相对优势都很小,其中10个还不到0.05。

·尺寸7:在这个尺寸下,SWIM获得了一个显著的优势,因为它在26个数据集中的17个数据集上占优势。其中五项改进幅度大于0.05。

·尺寸4:在这种极端情况下,SWIM是非常突出的。特别是,在26个数据集中的23个数据集上,它的性能优于其他数据集。在6个数据集上,性能差异大于0.1,而在14个数据集上,差异超过0.05。

A:统计意义

我们使用贝叶斯符号检验[6]来评价上一节的结果。贝叶斯符号检验是基于Dirichlet过程[7]的频率符号检验和符号秩检验的替代方法。它能够对多个数据集上的两种分类方法进行比较。在这种情况下,我们比较了对表一中所报告的每个数据集使用的合成过采样的最佳替代方法。对10、7和4个少数实例的训练集进行比较。

利用贝叶斯方法,我们可以提出关于后验概率的问题,我们不能用零假设检验来回答这些问题。这些问题包括:方法是否比b更好?根据实验,A更好的可能性有多大?a比1%更好的概率有多高?事实上,这些是我们在数据挖掘中比较分类器时实际上感兴趣的问题。

基于Dirichlet过程的假设,将贝叶斯符号检验的后验概率计算为以观测为中心的Diracs delta的混合。

图5显示了贝叶斯符号检验的三个后验图,用于比较SWIM和最佳替代方法。根据作者在[7]中提出的Dirichlet先验参数s=0.5和z0=0计算后验。后幅图报告了来自后验(点云)、单纯形(大橙色三角形)和三个区域的样本。左下角的区域表示SWIM优于最佳选择的可能性更大的情况,右下角表示相反的情况,而顶部区域表示更有可能两种方法都没有更好的效果。概括地说,越接近三角形的一个边的点越多,从统计学上讲,与该三角形的一个边相关联的方法就越好。

图5中的图验证了随着少数训练样本数的减少,SWIM的相对概率比最佳的替代再抽样方法更好。在与样本10大小对应的最左边的图中,点云大致以三角形为中心,这表明方法的执行情况大致相同。图中7和4大小的点云向下移动,然后向左移动。这表明SWIM越来越有可能成为最有意义的最佳方法。对于样本4,几乎所有的分数都落在SWIM区域内,因此,它几乎总是比最好的选择更好。

B:讨论

图4突出了两个不同类别的数据集。第一组包括一组3组数据集,在这些数据集上,在每一绝对不平衡的水平上,选择重新抽样是最好的。第二组包括至少在最极端的失衡水平上SWIM优于的数据集。通过检查每组数据集的PCA图,我们能够看到多数焦点策略的巨大优势,以及即使在极端绝对不平衡的情况下,可供选择的重新抽样方法仍然很强的情况。

图6显示了三个组中的两个示例数据集的PCA图,其中可选的重新抽样总是更好的。左边的情节显示了两个集之间几乎没有重叠的情况,而少数类集则是单一的。结果表明,由少数群体训练点(离白星)形成的凸包只覆盖了代表少数群体的区域,不扩散到多数类的高密度区域。这导致了良好的性能使用基于平滑的方法。右边的结果有很大的重叠,但少数类集仍然是一个有凝聚力的单峰群体,这使得基于SMOTE的方法能够填充一个代表少数类集的地区。

在这两种情况下,少数群体的分布都是相对紧凑的,而且是单一的,因此,无论是在多大程度上的不平衡,基于Smote的算法能够在少数群体的代表性区域中进行填充。采用等密度邻域方法,SWIM,具有在小型空间区域外生成数据的能力,从而对分类产生负面影响。

图7显示了从SWIM更好的组中获取的数据集的PCA图。在这种情况下,少数类作为一个点集群存在,但也包括大量从集群中分散的点。在这种情况下,SMOTE很容易被传播误导。这可能导致它在与多数类的高密度区域重叠的方向和/或在无助于移动决策边界的方向上合成实例。或者,我们以多数类样本为中心的方法受益于利用少数类训练实例在多数类实例的类别中的相对位置,将合成实例扩展到类似密度的邻近区域。例如,在左边的图中,Smote只会填充小三角形f。

因此,主要依靠少数群体的抽样方法,如Smote,如果相对于多数类的分布相对较紧凑,则受极端不平衡的影响较小。然而,当多模态和扩散时,它们会受到极端不平衡的严重影响,而SWIM则是稳健的,因为它主要利用多数类分布来指导抽样过程。

现在我们来看一下在我们的方法中设置单个空闲参数α和为Smote 5设置k的重要任务。图8显示了在所考虑的数据集中,α用于SWIM的选择和k用于Smote的可变性的比较。左饼图显示了设置α={1,1.5,2}的数据集对SWIM效果最好的数据集的比例,右边的饼图显示了设置k={3,5,7}的数据集对平滑体产生最佳效果的数据集的比例。对于SWIM,α=2在大多数数据集上产生了最好的性能;我们发现在所有级别的绝对不平衡中都存在这种情况,因此我们建议将其作为初始设置。对于Smote,k的选择不太明确,根据数据集的不同,5和7都是可行的选项。

最后,正如我们在导言中所指出的,Mahalanobis距离隐式地包含了关于数据分布的高斯假设。尽管许多领域都不符合高斯假设,但诸如NAüıveBayes分类器和Mahalanobis距离等方法在机器学习和数据挖掘应用中都是非常成功的。此外,我们已经表明,SWIM比各种各样的复杂程度的领域优越。虽然这里没有发生这种情况,但人们可以想象其中大多数类是由一个复杂的、非参数分布的、具有多个聚类的数据组成的。如果在这样的数据集中SWIM无法达到足够的性能,则可以在合成过采样之前将大多数类预处理成一组简化的聚类;类似的方法已经成功地应用于Sharma集中的一类分类。在这种情况下,我们建议对大多数类中的每一个簇分别进行SWIM,mahalanobis距离可以更好地表示这些聚类,从而生成合成实例。

  1. 结束语

我们提出了一种合成过采样的方法,即在极不平衡的领域SWIM(利用多数类抽样),利用多数类提供的丰富信息。在生成过程中,利用多数派的分布使我们能够在少数群体空间的区域进行合成,否则这些区域是无法进入的。在极端不平衡的情况下,这是一个基本的特征,因为它使诱导分类器既减少了它的偏见,又增加了它对少数类的泛化。或者,经典的重采样方法在某些领域失败,因为它们没有充分利用多数类中的信息;仅使用少数类,探索和采样的空间非常有限。我们在26个基准数据集上演示了我们的方法的有效性,这些数据集包含了各种各样的真实世界属性。结果表明,当相对和绝对不平衡很高时,SWIM具有明显的优势。

通过显式使用大多数类数据的合成过度采样为许多有趣的研究领域打开了大门。使用Mahalanobis距离(MD)具有数学和计算效率、采样方便性和可解释性等关键优点。目前,在合成过程中,我们使用所有已知的少数类实例来合成人工数据。然而,选择一个有益的实例子集或根据实例所在的数据空间的区域为实例分配权重可能更为谨慎。在白化空间中生成合成数据的替代策略也是今后研究的一个途径。实例生成对于其他领域也是至关重要的,比如增量学习和在线学习[27],以及应用程序。

SWIM的核心思想,如第1节和第3节所概述的,是我们生成的少数样本,其相对概率密度与已知的少数点相同。在本文提出的方法中,我们使用MD来实现这一目的。然而,任何适当的密度估计方法都可以用来利用这种观察来生成样本。在此框架下发现其他采样算法是未来研究的一个令人振奋的领域。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值