An Overview of Fairness in Clustering翻译

摘要

聚类算法是一类无监督机器学习(ML)算法,它们在现代数据科学中无处不在,并在许多基于学习的应用管道中发挥着关键作用。最近,ML社区的研究已经转向分析学习模型的公平性,包括聚类算法。此外,根据聚类算法的选择、采用的公平定义以及对模型所做的其他假设,公平聚类的研究差异很大。尽管如此,该领域的全面调查尚不存在。在本文中,我们试图通过对现有的公平聚类研究进行分类,并讨论未来工作的可能途径,以弥补这一差距。通过这项调查,我们旨在为研究人员提供该领域的有组织的概览,并激发关于聚类公平性的新的和未开发的研究方向。

1. 介绍

机器学习(ML)已被用于解决许多重要问题,其中许多问题可能具有重大的社会影响。这些问题包括预测罪犯再犯率[1] - [5],发放银行贷款[6] - [8],短名单应聘者[9] - [13]和大学录取[14] - [16]。由于在大型数据集上训练的ML模型已被发现包含对个人和少数群体的偏见,因此在高影响力应用中使用时可能会进一步放大偏见。这已经在许多ML应用中得到证明,其中未将公平性视为评估标准。一些例子是微软的Tay在线聊天机器人,它从推文中学习,由于有偏见的输入,开始使用种族歧视言论[17],以及COMPAS工具,即使两个人在其他属性上在统计上相似,但它预测黑人比白人更有可能犯罪[18]。

为了纠正模型并消除不公平,ML研究人员最近开始提出确保满足公平约束的方法[19] - [25]。然而,定义公平概念并非易事,通常是基于应用和法律背景进行的。例如,可以为少数受保护群体(如种族、性别等)[26]或个人(即,类似的个体应该得到公平对待)[27]定义公平,根据其使用的地方,都具有一定的优缺点。已经发现,不同的公平概念通常彼此不兼容[28],[29],不能被联合优化,进一步复杂了问题的难度。

聚类算法是无监督的ML算法,广泛用于标签不易获得的问题设置(如资源分配问题)中。此外,近年来,ML社区对聚类的公平性问题受到了相当大的关注,由Chierichetti等人[30]在2017年首次提出公平聚类的工作开创了这一领域。然而,与一般ML案例相比,确保聚类的公平性更加困难,因为数据中没有标签,无法计算基础真实错误率以估计偏差和不公平性。这使得定义和实施聚类的公平性成为一个具有挑战性的问题。

由于这个原因,存在许多不同的聚类公平概念(例如[30] - [34]),不同的研究论文选择不同的指标或提出新的指标。此外,确保满足公平约束的技术在方法上差异很大;通常只有有选择地比较不同的公平方法,而没有采用比较的确定(公平性和性能)指标。也没有编译用于公平聚类方法的调查或评论文章。这与其他ML子领域形成鲜明对比,其中存在多个调查,例如推荐系统[35],自然语言处理模型[36],学习排序模型[37]和顺序决策方法[38]等。

因此,我们旨在通过本文弥合这一差距,整理该领域。我们的目标是为公平聚类中的现有和新研究人员提供该领域的概述,并提供新的见解。我们将公平聚类中的众多方法与其他ML调查文章类似地进行分类,并为聚类的公平概念提供许多不同的分类。我们的工作还讨论了公平聚类的实际应用,以及用于评估公平聚类方法的数据集。因此,本文也可以作为ML从业者在其应用中利用公平聚类的工具。总之,本文的贡献如下:

•我们提供了第一个关于公平聚类的调查,整理了该领域,并将公平聚类方法与其他ML调查类似地进行分类。

•我们对聚类的许多不同可用的公平概念进行了分类,提供了有关公平模型评估的详细信息以及常用于此的数据集。

•我们讨论了使用实际应用程序进行聚类的动机,以帮助ML从业者,并为该领域提供了多种新的研究方向。

2. 准备工作和符号

在本节中,我们简要讨论聚类算法的工作原理,并概述了用于使机器学习模型公平的不同方法。我们还详细介绍了本文中使用的符号。

A. 聚类算法

除非另有说明,否则我们通常考虑本文中的示例场景的硬聚类,即每个点只能属于一个聚类。在图1中,我们概述了前述一般聚类过程。原始数据集X作为聚类算法A的输入提供,我们获得聚类分割集 C = { C 1 , C 2 , C 3 , C 4 } \mathcal{C} =\{C_1,C_2,C_3,C_4\} C={C1C2C3C4} 作为输出,分别以蓝色,红色,黄色和绿色表示。

B. 聚类方法的一个简要的分类法

已经提出了许多不同的聚类方法来将数据划分为有意义的聚类,在深入研究众多用于公平聚类的方法之前,对这些方法的初步了解是有用的。为了便于理解,我们借鉴(并略微修改)Xu和Wunsch[49]最初提出的用于区分数据聚类方法的分类。由于本文的范围不包括对数据聚类方法的深入讨论,因此我们将读者引向调查[49],[50],以了解有关数据聚类方法的更多细节。

聚类算法一般可以分为以下几种:

1) 基于中心的聚类

这些方法旨在通过最小化分配给聚类的数据样本与其相应聚类中心之间的误差度量来将输入数据集划分为聚类。根据定义的误差度量,聚类中心可以是聚类中样本的平均值(例如在k-means[44]中)或聚类中样本的中位数(例如在k-medoids[43]中),以及许多其他可能性。该类别中最常见的方法是k-means,其中误差项定义为聚类样本与聚类中心之间的平方欧几里德距离[51]。已经提出了许多不同的k-means变体,以改进原始启发式算法[52] - [54]。其他方法包括k-medoids[43],迭代自组织数据分析技术(ISODATA)[55]等。

2) 层次聚类

层次聚类方法旨在将数据集划分为层次结构,其聚类输出表示为二叉树。根节点表示整个数据集,而叶节点包括数据集的单个样本。树的其余节点表示聚类,从而获得聚类的层次结构。聚集层次聚类算法旨在以自下而上的方式构建此树,而分裂层次聚类算法则试图以自上而下的方式进行。聚集层次聚类算法的一些例子包括使用代表(CURE)[56],沃德方法[57],使用层次结构的平衡迭代减少和聚类(BIRCH)[58],使用链接的鲁棒聚类(ROCK)[59]等。对于分裂层次聚类,例子包括分裂分析算法(DIANA)和单性分析算法(MONA)[60]。最近,还提出了层次聚类的分析目标[39],[45],[46],这些目标导致了更多理论上稳健的层次聚类算法的发展。

3) 基于混合模型的聚类

基于混合模型的聚类是一种概率聚类方法,其中点以柔性方式分配给聚类,而不具有硬性成员资格。此外,假定数据点起源于(属于)某些概率分布的混合。在此聚类方法中,通常假定分布的性质(通常是多元正态分布的混合)。然后,聚类任务转化为查找最大化度量(如对数似然度)的此混合分布的参数集(或确定点属于特定聚类的可能性)。属于此类别的流行聚类方法包括基于高斯混合模型的期望最大化(GMM-EM)[61],基于期望最大化的混合程序(EMMIX)[62]和AutoClass[63]等。

4) 基于图的聚类

基于图的聚类方法利用图论的概念对数据进行聚类。首先,需要将原始数据集转换为图形问题,将数据样本作为图中的节点/顶点,并使用不相似/相似度量在样本之间创建边。不相似/相似度量通常使用点之间的距离度量来定义。然后,如果点在某个距离阈值内,则可以在节点之间创建边,通常使用k-最近邻图[64]。在获得描述原始数据的图形后,可以获得拉普拉斯矩阵。然后,在拉普拉斯的特征向量上使用k-means(或其他简单聚类算法)进行聚类,并将原始数据样本分配相同的聚类标签[65]。根据图拉普拉斯的选择,可以获得不同的光谱聚类输出[66]。许多其他基于图的聚类方法也属于此类别,例如通过身份内核(CLICK)[67]进行聚类识别,基于Delaunay三角剖分图的聚类(DTG)[68]等。

5) 模糊聚类

模糊聚类算法包括软聚类方法,其中数据样本对聚类具有模糊成员资格(0到1之间的成员资格等级),而不是二进制聚类分配。最流行的模糊聚类方法是模糊C-Means(FCM)[69]。已经对FCM进行了许多改进,包括更容易识别中心的方法[70],将算法推广到任意距离度量[71],减少时间复杂度[72]等。模糊聚类也可以与层次聚类结合,如Hierarchical Unsupervised Fuzzy Clustering(HUFC)[73]中所做的那样。

6) 基于组合搜索的聚类

由于通常存在指数级的聚类解决方案搜索空间,因此准确求解大多数聚类优化目标可能是NP-Hard。因此,可以将聚类问题重新表述为组合优化问题,并使用局部搜索方法来近似最优聚类解决方案。通常,由于问题的硬度和普遍性,使用进化方法[74]作为搜索算法,例如模拟退火(SA)[75],遗传算法(GA)[76]等。属于此类别的聚类方法包括用于聚类的遗传引导算法(GGA)[77],遗传k-means算法(GKA)[78]等。

C. 在机器学习中的公平性

在学习管道的三个阶段[17],[79],[80]中,可以强制/确保机器学习模型的公平性:1)训练前阶段,2)训练期间或3)训练后阶段:

1)训练前阶段需要对原始数据进行预处理以获得新的数据集。在对此新数据集进行未更改的机器学习模型训练/运行时,输出预测将满足公平约束。

2)改善机器学习模型公平性的最常见方法是训练期间或处理期间,其中机器学习模型本身被修改以包括公平约束。这涉及更改优化和训练过程,使输出预测公平,而不更改原始数据集。

3)最后,也可以在训练后强制执行公平性,其中原始模型的预测经过后处理过程计算类似的预测集,使其现在满足所需的公平约束。

我们在图2的学习管道的背景下详细描述了这些方法。正如之前提到的,由于聚类是一种无监督学习问题,其训练和测试数据集相同,图2中显示的图表也将相应地改变以适应这一点。因此,我们在论文的第四节中讨论了与聚类相关的方法,这些方法建立在图2的高级概念图上。我们不讨论通过分析指标如何衡量一般ML模型(如分类,计算机视觉等)的公平性,因为这超出了本文的范围。我们在论文的第三节中讨论了与聚类相关的公平性度量和概念,但有兴趣的读者可以参考[17]了解有关一般ML模型的公平性概念的更多信息

3. 聚类中的公平性概念

在本节中,我们讨论了一般用于聚类的不同公平性概念。正如之前提到的,公平性概念通常是特定于应用程序的,与其他设置相比,某种特定的定义可能更为可取。例如,考虑[31]提供的应用程序场景的改编版本。我们必须为该地区的一组房屋找到三个(= k)公园的设置位置。为此,我们可以使用以中心为基础的聚类算法,其中每个中心可以表示一个可能的公园位置。在这个地区,我们有两个密集的城市分区,住房集中在较小的区域,以及一个住宅分区,该分区范围较大,但密度低于城市。这种情况如图3所示。现在,如果使用一般的基于中心的聚类算法(如k-means),我们将获得一个单一的聚类中心(公园)来共享城市分区,而较大的郊区分区将获得两个公园。

这对住在密集分区的个人来说是不公平的,因此,这个应用程序需要一个定义公平,保证比例共享的聚类中心。一个公平的解决方案(在这种情况下)将为两个密集的城市分区分配两个中心,为较大/较稀疏的分区分配一个公园。因此,[31]提出的比例公平性的定义比其他公平性概念(如[30]提出的最常用的平衡)更合适。前者捕捉到数据样本是个体的想法,对这些个体的公平意味着根据其数据集特征和聚类中心以准确的方式聚类。另一方面,后者旨在捕捉属于受保护群体的点在每个输出聚类中的代表程度。显然,对于上面考虑的例子,比例是更好的公平概念。注意,比例公平性也更适合这种情况,因为它不需要受保护的群体(与明确要求群体的平衡相反),并且可以针对样本级别的公平要求进行定制。

上述例子引出了一个有趣的研究问题:有没有办法区分彼此的聚类公平概念?我们通过引入四种不同的公平定义分类来肯定地回答这个问题:群组级别,个人级别,算法不可知和算法特定的公平性。公平概念也可以属于多个类别。由于聚类的公平概念以前没有正式分类,我们的目标是这是这样做的简单的第一步;还有许多其他不同的分类/分类是可能的。随后,我们分别解释每个类别,然后使用我们提出的类别为迄今为止提出的所有公平聚类概念提供现有的定义/分析。

A. GROUP-LEVEL的概念

群组级别的公平概念通常源自不同影响(DI)学说[81],该学说规定,任何一组个人都不应受到决策系统结果的不利影响。也就是说,任何一组个人都不应受到算法的歧视或明显优先,就输出预测而言。

这类公平性可以通过一个例子来理解。例如,信用卡数据集[82]被银行的市场部门用来向潜在客户传达借贷和可用信贷机会。该数据集包含诸如潜在客户的年龄、教育水平、每周工作时间以及每月资本收益等特征。银行利用聚类算法找到宣传优惠的目标人群,将上述属性作为聚类算法的输入。也就是说,运行该算法后,他们得到一些人的集合,然后使用一些度量标准(如教育水平和工资)将这些人分为特定的促销/优惠对象。重要的是要注意,少数族裔(POC)和女性往往比白人男性[83]工作时更低,而POC面临的困难导致他们在教育水平上存在差异[84]而不是白人人口。因此,考考虑到关于种族教育差距和工资差距的这些事实,使用这些属性的集成学习将使得白人家庭、男性都成为能够得到好处务(如房屋抵押) 的好对 像 。因此, 这种市场聚类算法对POC以及妇女有不合理的影响; 使他们失去改进机遇. 因此, 重要的是研究受保护群体(例如, 民族和性别)以及这样集群能力中相应公平性. 因此,group-level的公平措施旨在以一种分析性的方式捕捉这种设置。

B. INDIVIDUAL-LEVEL 的概念

个体公平观念与群组公平观念有很大的不同。在这里,我们没有任何受保护的群体,目标是确保ML模型对类似的个体(数据集中的样本)进行类似的处理。也就是说,遵守个体公平的聚类模型将使用某种不相似性度量标准将所有被认为相似的个体聚类在一起。之前讨论的比例公平观念[31]就是聚类个体公平观念的一个例子。

个体公平聚类的研究还没有像群组公平那样广泛,大多数工作只关注设施位置和基于中心的聚类。这些个体公平定义的差异源于1)个体之间如何定义不相似性度量,以及2)如何衡量输出聚类的相似性。在[87]中,作者假设不相似性度量可以作为距离度量d提供,如果每个数据集中的个体样本的平均距离(使用d测量)到其聚类中的样本小于其他聚类中任何样本的平均距离(使用d测量),则聚类满足个体公平性。在[34]和[88]中,作者提供了一个个体聚类公平的替代定义:数据集中的每个样本都应该在距离R内有一个中心,其中R是以样本为中心的球的最小半径,其中至少包含n/k(总样本数除以聚类数)样本。在[89]中,个体公平性被扩展到聚类设置,从[26]的经典分类工作开始。在这里,作者考虑软聚类输出,由于聚类是概率性的,他们通过聚类输出的分布相似性来强制执行个体公平性。最近,关于聚类个体公平性的研究[90] - [94]有所增加,我们将在第四节中详细介绍这些内容。

根据先前提到的,不同的公平原则往往不能一起应用。这对于聚类的群体级别和个体级别的公平原则也是如此。特别是在[95]和[96]中,作者发现强制群体级别的公平可能会对相似个体之间的个体级别公平产生不利影响。这也可以从图4中的简单示例中看出,该示例改编自[89]。在这里,使用不同的标记表示不同的受保护群体,使用不同的颜色表示不同的聚类分配。左侧显示满足群体级别公平(例如,通过平衡强制)的聚类分配,右侧显示满足个体级别公平的聚类分配。这是因为对于群体级别的公平,每个群体都需要以相似的比例出现在聚类中,而对于个体级别的公平,我们希望相距较近(相似)的点被聚类在一起(相似)。从图中可以看出,这些是互斥的情况,因此只能强制执行一种公平原则。我们在本节末尾的表1中提供了个体级别公平原则的完整列表。

C. 算法不可知论

我们还根据设计特定聚类目标的公平概念或可推广到任何给定目标的公平概念来对其进行分类。算法不可知的概念通常是针对聚类输出层定义的,因此可以推广到所有聚类目标。例如,先前讨论的第一个提出的公平概念平衡[30],[85]实际上是通过任何聚类算法给出的聚类输出进行操作的。这使它成为一个算法不可知的公平概念。

请注意,任何不明确假设聚类算法但隐含要求特定聚类行为的公平概念都不被视为算法不可知的。例如,对于比例公平概念[31],虽然定义中没有明确提到聚类算法,但该概念需要聚类中心,因此仅限于基于中心的聚类目标。此外,群组级别和个人级别的公平概念都可以是算法不可知的。我们还发现,大多数群组级别的公平概念都是算法不可知的。算法不可知的概念在本节末尾列出(表1)。

D. 算法特定概念

算法特定的公平概念构成了专门针对某些聚类目标和算法的公平概念。一个例子是[33]提出的k-means社会公平成本。在他们的工作中,作者将公平聚类定义为每个受保护群体的平均k-means成本最小化。虽然这种社会公平的方面可以扩展到其他学习任务,但当前的工作旨在为k-means这样做,使其特定于基于中心的聚类目标。其他例子包括[31]提出的比例公平以及[34],[88]的个人级别公平概念,因为它们只能与基于中心的聚类一起使用。表1中提供了完整的列表。

E. 对常用概念的定义

在本小节中,我们为一些常用的公平概念提供了数学定义。然而,由于提出了多种不同的概念,我们将所有概念的列表推迟到表1,并在那里提供指向适当相关工作的指针,以讨论和定义这些概念。

我们现在为以下公平概念提供技术定义:

1) BALANCE

Chierichetti等人[30]首次提出了2个受保护群体的平衡组级和算法不可知的公平概念。后来,Bera等人[85]将其推广到多组情况。从那时起,平衡一直被用作公平聚类研究[97] - [100]的公平度量标准。

从定义中可以看出,平衡位于0和1之间,值越高,聚类输出越公平。也就是说,一个公平的算法将尝试最大化平衡的概念。这通常作为一个约束来确保平衡被一个预先定义的输入值的下界或上界所限制。

很明显,这也会输出一个0到1之间的值,作者还提供了理论分析,表明最小化这种公平概念等同于最小化[30]提出的原始2组平衡概念。

2) SOCIAL FAIRNESS

Ghadiri等人[33]为k-means聚类目标提出了社会公平成本。Abbasi等人[103]为k-means和k-medians开发了类似的群体代表公平概念。Markarychev和Vakilian[104]推广了社会公平问题,但在这里我们按原来的定义介绍k-means案例。在当前的公式中,这种公平概念是特定于算法的,因为它只能用于基于中心的聚类。

由于上述概念是一种成本,它需要被最小化,而不是像平衡那样被最大化。也就是说,社会公平成本越低,聚类越公平。

3) BOUNDED REPRESENTATION

Ahmadian等人[86]提出了有界表示的概念。它是一种群组级别的概念,可以使用两个参数α和β来定义。公平概念是通过约束来定义的,这些约束需要对通过聚类算法获得的每个聚类施加并满足。让Pa,b是保护组b∈[m]成员在聚类a∈[k]中的比例。那么,对于(α,β)-有界表示,我们要求:

本质上,与先前讨论的其他概念不同,这个概念被定义为一组约束。如果满足每个组和聚类的所有公平约束,则聚类是公平的。这种公平概念也可以通过仅考虑点比例的上限(α)或下限(β)来定义。如果α=β=1/m,则该概念旨在以相等比例在聚类输出中表示每个组。有界表示也与许多聚类目标一起使用[86],[105]。

4) MAX FAIRNESS COST (MFC)

MFC是由[32]定义的用于启发式分层聚类算法的概念。尽管如此,它是一种算法不可知的公平概念,因为它仅在树形层次结构的一个层次上工作,使其适用于具有k个聚类输出的任何聚类算法。它也是一种组级别的概念,需要为每个受保护组b∈[m]定义一个名为理想比例(Ib)的附加参数。用户提供 Ib,并在运行时提供,可以根据不同的应用需求进行变化。然后,如果群体b∈[m]中的点在聚类a∈[m]中的比例被给定为Pa,b,则MFC定义为:

|Pa,b - Ib|

MFC本质上是每个聚类中每个受保护群体的理想比例偏差总和的最大值。MFC越低,聚类所实现的公平性就越好。如果将参数Ib设置为1/m,则公平概念旨在确保每个受保护群体在每个聚类中以相等的比例代表。

5) DISTRIBUTIONAL INDIVIDUAL FAIRNESS

这种个体级别的公平概念是由[89]提出的。在这里,假设已知一个操作数据集X中一对样本的公平相似度 F ∈ R + F\in R^+ FR+。为了确保公平,每对样本的输出分布使用f-divergence [106]–[108]获得的统计距离应小于使用F度量获得的距离。此外,公平概念是特定于算法的,因为它假设聚类中心是可用的,限制了对基于中心的聚类的适用性。它还假设概率聚类(例如基于高斯混合模型的软聚类[109]的设置)用于问题定义。他们的工作扩展了[26]提出的分类的个体公平概念。

6) KLEINDESSNER et al. INDIVIDUAL FAIRNESS

7) ENTROPY

熵是[111]中定义的一种公平度量,仅在深度聚类模型的上下文中专门用于公平性。深度聚类与一般聚类方法的区别在于,在训练之前已知每个样本的地面实况标签。此外,与平衡相似,熵越高,模型越公平。让Na,b是包含属于聚类a和受保护群体b的数据集X中的样本的集合。此外,让na是聚类a中样本的数量。然后,熵定义如下:

Entropy = -∑a∑b(|Na,b|/n_a)log(|Na,b|/n_a)。

4. 实现公平聚类的方法

在本节中,我们沿着两个维度全面讨论了公平聚类的最新研究:1)公平干预的聚类目标,2)干预所处的学习管道阶段(参见第二节)。在接下来的第一小节中,我们通过根据所采用的聚类目标对所有公平聚类方法进行分类,总结了所有公平聚类方法。这包括基于中心的聚类(如k-means,k-center,k-median),层次聚类,光谱聚类和深度聚类模型。由于存在某些方法要么更一般,要么不属于上述聚类目标中的任何一个,因此我们还有一个杂项类别。我们发现,公平聚类方法最常见的聚类目标是基于中心的聚类-特别是,这是未来工作可以改进的一个可能方向(第六节)。

在第二小节中,我们考虑基于强制执行所针对的聚类管道阶段,对公平聚类方法的分类和讨论。最初,在第二节中,我们为一般ML模型提供了预处理/内处理/后处理方法的区别。我们将同样的术语应用于公平聚类方法的分类。重要的是要注意,对于聚类,与传统ML模型相比,学习管道有些不同,因为训练和测试数据集是相同的。因此,在第二小节中,我们首先描述聚类上下文中的公平干预阶段(预处理/内处理/后处理),然后讨论分类。

A. 聚类目标

1)基于中心的聚类

我们现在讨论所有关于使中心聚类公平的研究。另外,请注意,在公平聚类文献(以及一般的聚类)中,k-median(s)和k-medoids聚类经常互换使用来描述后者问题。从技术上讲,这些聚类目标非常不同-k-median(s)指的是最小化L1范数,而聚类中心不需要是示例(必须是原始数据集中的点),而对于k-medoids,目标是最小化使用任何距离度量定义的成对不相似性的总和,而中心需要是示例。与其他相关聚类工作一样,我们将后者称为k-medians,隐含假设聚类中心是示例。如果我们讨论任何偏离这个目标的情况,我们应该明确地说明,以避免模棱两可。

Chierichetti等人提出了第一个关于群体水平公平聚类的工作,特别是考虑只有两个受保护群体的情况下的k-center和k-median聚类目标[30]。他们引入了我们先前讨论过的公平概念——平衡。为了平衡输出聚类,他们提出了fairlet分解方法。Fairlet分解是一种预处理方法,可以计算出保证公平的fairlet微聚类。然后,他们将fairlet中心作为原始数据集的新转换数据集。然后,这个基于fairlet的转换数据集被提供给香草聚类算法,因此,由于fairlet本身是公平的,我们得到了近似公平的聚类输出。Fairlet分解方法也在图5中可视化描述,以提高理解。请注意,fairlet分解通常可以与任何公平概念一起使用,但是提出有效的计算fairlet的方法本身并不是一项简单的任务。

随后,Backurs等人[99]通过提出一种近乎线性的可扩展时间算法,改善了fairlet分解的计算时间复杂度,但仅限于k-median聚类。
Rösner 和Schmidt [113]扩展了[30]的公平框架,以允许多个受保护群体,并获得了k-center目标的14-近似公平算法。

Schmidt 等人[97]提出了公平k-means聚类的核心集,这使得比fairlets更具可扩展性的方法得以实现,而且在不允许随机访问数据集(fairlet分解所必需的)的情况下也更适用。核心集本质上是给定点集的摘要,因此它们有效地近似了任何可能的候选解决方案的成本函数,而[97]中引入的公平核心集旨在在两个受保护群体的情况下实现这一目标,同时还强制执行公平性。黄等人[121]扩展了公平核心集,用于k-median聚类,并在k-means的情况下消除了公平核心集生成的维度依赖性。此外,他们的方法适用于多个不相交的受保护群体。Bandyopadhyay等人[122]提出了第一个固定参数可处理(FPT)时间常数因子近似算法,用于k-median和k-means,同时去除了核心集生成的维度依赖性。我们在图5中直观地描述了公平的共重置方法。

许多论文通过引入上限和/或下限来扩展[30]原始公平概念的平衡,以限制受保护群体在聚类中的成员资格,也称为有界表示概念。Ahmadian等人[86]仅对存在多个受保护群体的公平k-center中的受保护群体表示使用上限约束。Bera等人[85]和Bercea等人[98]提供了更一般的聚类目标的方法,该方法在每个聚类中对受保护群体成员的比例使用上限和下限约束。[85]算法允许群体重叠(例如,考虑种族和性别),他们将 △ \bigtriangleup 表示为样本可以同时属于的受保护群体的数量。他们提出了一种基于线性规划的舍入方法,如果原始聚类目标具有c近似算法,则可以达到c + 2近似,同时最多对上限和下限公平约束产生 4 △ + 3 4\bigtriangleup + 3 4+3 加性违规。

特别是对于k-center,[85]在中心不需要是典型的情况下获得了5-近似,而在中心作为典型的情况下获得了4-近似。Harb和Shan[123]通过开发一种更快的5-近似算法来改进[85]的公平k-center结果,以及一种更好的3-近似算法,用于中心作为典型的情况。Jia 等人[120]提出了一种允许多个群体或颜色的k-center目标的3-近似算法。Esmaeili等人[118]提出了一般设置下的近似算法,允许点具有不确定的受保护群体成员资格(也就是说,受保护的群体成员资格被提供为一个分布),并假定数据集中的样本一次只属于一个受保护群体。

Liu和Vicente[114]引入了一种随机方法,用于解决双目标优化问题,并显示k-means聚类目标和公平性之间的折衷。他们的算法只能保证在平滑问题上收敛。Esmaeili等人[126]将k-center、k-median和k-means的聚类目标成本/公平性问题概括为一般形式,并引入了新的群级公平概念。他们为每个概念开发了双标准近似算法。

Kleindessner等人[128]提出了一种计算群级公平聚类的公平摘要的方法,该方法使用k-center原型来概括数据集中的每个组。他们为此问题提供了一个线性时间近似算法。Chiplunkar等人[129]在流式设置中提出了改进的分布式算法,用于上述公平摘要概念。Jones等人[130]提出了一种算法,运行时间为线性,但可以达到公平k-center摘要问题的3-近似。

Ghadiri等人[33]引入了社会公平概念,其重点是最小化群组间的聚类成本,而不是限制聚类中受保护群体的比例。与[33]同时,Abbasi等人[103]独立地引入了类似的群体表示概念。Makarychev和Vakilian[104]提出了一种广义双标准近似算法,并将社会公平聚类问题框架概括为一般形式。Goyal和Jaiswal[124]为社会公平概念开发了一种FPT时间近似算法。Thejaswi等人[125]为k-median目标引入了一种新的多样性感知公平概念,要求每个组在聚类中心的形式中具有一定的最小表示。

Individual-Level Fairness: Chen等人[31]为k-center聚类引入了比例公平的个体水平公平概念,旨在确保点得到平等对待,这是一个重要的关注点,尤其是对于设施布置。他们表明,精确的比例公平解决方案并不总是存在,并提供了一种算法,在最坏情况下可以达到1+√2的比例公平聚类解决方案。他们还开发了一种O(1)比例公平的方法,以及最优比例公平解决方案的k-medians目标的O(1)近似方法。Micha和Shah[93]修改了Chen的方法,在使用L2范数作为距离度量时开发了2-近似算法,并证明了1+√2因子对其他常用的距离度量(如L1范数和L-无穷范数)是紧密的。

Jung等人[88]引入了一种个体水平的概念,用于基于中心的聚类目标,确定聚类的公平半径,如先前定义的(表1)。他们开发了一种2-近似公平的k-center聚类算法,这意味着每个点p都有一个中心距离在2r§以内,其中r(x)的定义如表1所示。从这里开始,我们使用(.,.)符号来表示公平概念和聚类目标的双标准近似结果。Mahabadi和Vakilian[34]证实了Jung的结果,并推广了这个问题,为公平的k-median和k-means聚类获得了(O(1),O(1))双标准近似,以及(O(1),O(log n))双标准近似的k-center。Vakilian和Yalçıner[92]改进了[34]的公平k-center案例,将双标准近似从(7,O(log n))改进到(3,O(1))。此外,他们还为k-means和k-median目标提供了改进的双标准近似(与[34]相比)。 Chakrabarty和Negahbani[91]还提供了改进的算法,根据Jung等人的公平概念,通过线性规划舍入实现k-medians和k-means聚类的(8,8)和(8,4)双标准近似。

我们还讨论了最近研究的基于中心的个人公平和群体公平聚类的一些其他工作。Kleindessner等人[87]引入了另一种个人公平概念,使用一个需要点比其他簇的点更接近自己簇点的差异函数。Anderson等人[89]开发了公平算法,确保分布式个人公平,使相似的个体聚类相似。Brubach等人[94]引入了两种新的个人公平概念,并提出了一种k-means目标的算法。最近,Chakrabarti等人[90]提出了一种个人公平概念,确保点接收相似的服务质量,并为k-center目标提供了算法。 Abraham等人[127]为新的群体水平公平概念引入了一种公平的k-means聚类算法,该概念在聚类管道的预处理阶段强制执行。

2) 层次聚类

Ahmadian等人[105]和Chhabra和Mohapatra[32]同时提出了公平的层次聚类方法。然而,两种方法有许多不同的区别。Ahmadian等人[105]提出了一种Fairlet分解方法,仅用于最近提出的层次聚类目标(如Dasgupta的成本[39],价值[45]和收入[46])的有界表示公平性(上界)。由于Fairlet分解,他们的工作构成了一种预处理方法。另一方面,Chhabra和Mohapatra[32]提出了一种用于启发式贪婪层次聚类算法的in-processing算法,可以容纳任何公平概念。他们的工作没有考虑新提出的层次聚类目标,如[39],而是专注于实践中使用的传统启发式层次聚类。Quy等人[117]利用Fairlet分解使容量聚类公平。他们考虑了层次聚类(启发式和贪婪,类似于[32])和基于分割的聚类算法,以改善公平性。此外,由于容量聚类问题在教育环境中很相关(学生群体需要公平的代表性和大致固定的大小),他们评估了他们对上学学生数据的方法。

3) 谱聚类

Kleindessner等人[100]将公平约束(平衡公平概念)添加到归一化和非归一化的谱聚类中。他们将图拉普拉斯矩阵投影到一个公平的子空间,然后在这个子空间上执行k-means聚类。他们还对他们在随机块模型的变体上的方法进行了分析。Anagnostopoulos等人[131],[132]将[100]的工作扩展到最密子图问题。

4)深度学习聚类

Wang和Davidson[102]提出了结合深度聚类和公平性的第一项工作;他们引入了Fairoids来代表每个组,并通过一个有区别的深度聚类模型确保中心等距离Fairoid。Fairoids允许非二进制值受保护的群体。Li等人[111]开发了一个可扩展的深度聚类模型,该模型使用对抗损失来约束学习,确保公平性的同时保持聚类质量。他们是第一篇使用深度,公平聚类的视觉数据集进行视觉学习的论文。Zhang和Davidson[101]推广了深度聚类的公平约束,并开发了一个允许多个受保护群体和灵活约束的模型。

5) 杂项

Ziko等人[115]开发了一个公平聚类的通用变分界限优化框架。他们引入了基于Kullback-Leibler(KL)分歧的公平惩罚项。公平惩罚用于衡量和管理聚类目标和公平性之间的权衡。此外,他们的方法具有可扩展性,适用于大型数据集。

对于基于图的相关聚类目标,Ahmadian等人[119]利用了公平分解方法。他们为许多不同的公平约束取得了有希望的结果,并发现通过将公平分解定义为类似于k-median成本,他们可以获得公平相关聚类的良好近似。

Chhabra等人[116]引入了在原始数据集中添加解药数据点的预聚类方法,以改善群组水平的公平性。解药数据点是不属于受保护群体的虚拟点,但是当在新数据集上进行香草聚类时,与原始点相比,解决方案更加公平。他们的方法是通用的,可以容纳任何公平概念和聚类目标。他们还考虑了这项工作的其他问题设置,例如聚类目标和公平概念是凸函数的情况。图5可视化描述了公平聚类的解药数据方法。

虽然我们将自己限制在聚类算法的公平性研究中,但也有其他相关领域可以研究公平性,例如复杂网络中的链接预测[133] - [136]。虽然对这些方法的深入讨论不在本文的范围之内,但聚类本质上与许多其他领域有关,可以应用类似的公平性想法。

B. PRE-PROCESSING, IN-PROCESSING, AND POST-PROCESSING APPROACHES

正如前面在第二节中提到的,公平的方法可以根据在学习管道中强制执行公平性的阶段来广泛分类。特别是对于聚类,同样的分类也是成立的,尽管有一些微小的差异。

对于基于预处理(或预聚类)的公平方法,公平干预发生在训练学习模型之前的阶段。对于聚类,这意味着首先对原始数据集 X X X 进行预处理,然后将其转换为某个数据集 X ′ X' X。当在这个转换后的数据集上调用普通的聚类算法 A \mathcal{A} A 时,得到的结果 C f a i r \mathcal{C}_{fair} Cfair 是公平的。图6说明了这个过程的原理图。

对于基于内处理(或内聚类)的公平方法,公平干预是由于改变原始学习模型而发生的,使其只输出公平的解决方案。这就是大量公平聚类方法所在的地方。在这里,聚类模型/算法本身从普通的聚类算法 A \mathcal{A} A 改变为公平聚类算法 A ′ \mathcal{A}' A ,以使其在公平解决方案 C f a i r \mathcal{C}_{fair} Cfair 中纳入公平约束。表明这一点的原理图如图7所示。

基于后处理(或后聚类)的公平方法在学习模型计算出初始不公平估计之后强制执行公平方法。对于聚类,这意味着公平干预发生在香草聚类过程之后。在原始数据集 X X X 上运行香草聚类算法 A \mathcal{A} A 以获得不公平的聚类解决方案 C \mathcal{C} C。然后,公平方法对 C \mathcal{C} C 进行操作以获得公平的聚类输出 C f a i r \mathcal{C}_{fair} Cfair。许多研究工作也属于这一类。说明这一点的原理图如图8所示。

我们现在讨论在这个分类下的公平聚类研究。此外,表2显示了大多数主要的公平聚类论文的这种分类。

1) PRE-PROCESSING APPROACHES

fairlet分解[30]是第一个公平聚类工作中使用的概念,它构成了一种基于预处理的方法。正如之前讨论的,fairlet分解旨在在数据中找到满足公平要求的fairlets(或微聚类)。然后在这些数据上采用香草聚类,从而得到公平的解决方案。许多扩展或利用fairlets的公平聚类工作都属于预处理类别:[99],[105],[113],[119]。公平核心集也是数据集的公平表示,它概括数据点以以更可扩展的方式确保公平。由[97]引入,公平核心集被用于[121]和[122]。之前描述的公平聚类的解药数据方法[116]也与此相关,因为它是对原始数据集进行预处理和增强。以高层次方式解释这些不同预处理方法的图表作为图5的一部分。

2) IN-PROCESSING APPROACHES

内处理方法的公平聚类涉及改变聚类目标和算法本身。通常,公平算法在聚类成本和公平权衡之间进行优化。诸如[114],[127]和[115]之类的论文通过增加函数来测量和控制公平性与聚类性能之间的权衡。在[100]中,作者类似地调整谱聚类目标,以解决纳入公平约束的最小化问题。在[125]中,作者专门为多样性感知公平性开发了k-median算法。在论文[101],[102],[111]中,作者限制了深度聚类过程本身,通过联合优化,对抗学习或其他类似方法来优化簇质量和公平性之间的权衡。

[31]和[93]的工作也改变了聚类算法的目标,以找到个体水平的比例公平的解决方案。最后,论文[88]-[91]和[94]也根据Jung等人[88]首先提出的公平概念,重新定义了聚类目标,使它们成为个体公平。

3) POST-PROCESSING APPROACHES

后处理涉及修改聚类输出以使其公平。首先使用香草聚类算法,根据公平概念分别解决公平问题或调整香草输出。与内处理方法不同,聚类算法本身不会联合优化聚类成本和公平目标。后处理方法的例子包括用于公平k-centers摘要的方法-这些后处理聚类中心,使每个组通过中心公平地表示。这一工作首先由[128]引入,后来由[129]和[130]扩展。[113]中的作者使用算法在使用香草聚类算法找到非私有解决方案后维持公平和隐私,也构成了后处理方法。类似地,[85],[86],[98],[123],[34],[92],[118],[126]和[87]首先解决香草聚类问题,然后通过提出改变点聚类分配的算法来改善公平性。因此,这些也构成了基于后处理的公平聚类方法。

另一个基于后聚类的工作是[137]。在这里,作者以香草聚类算法的聚类输出为输入,计算一个接近原始聚类但满足公平要求的聚类。他们将问题表述为整数线性规划,并提供关于硬度的理论结果。

5.评估公平聚类

在本节中,我们沿着两个方面讨论公平聚类研究的方面:通常用于评估的数据集以及一些实际应用的动机。这里的目标是允许研究人员根据先前的研究选择合适的数据集进行评估,并提供实际的用例。然后,这些实际场景可以用来激发公平聚类中的理论问题,或以更实际的方式进行公平聚类研究。

A. DATASETS

第四节讨论的方法提出了使用不同概念创建公平聚类模型的不同方法。下一阶段是通过将该方法应用于实际数据来评估该方法。根据概念和总体目标的不同,使用的数据集各不相同,但有些数据集的使用频率比其他数据集更高,可以用来比较不同的方法。

为了为新入该领域的研究人员提供指导,收集了超过40篇关于公平聚类的论文中使用的数据集,分别放在表3(经典聚类方法)和表4(深度聚类模型)中。用于传统公平聚类的最常用数据集列在表3的顶部:adult[138]、bank[139]、credit card[82]、diabetes[140]和census[141],它们都是来自UCI ML存储库[167]的大型数据集。表3包括每个数据集的名称和标签、简短描述以及来源论文。

此外,还列出了调查论文中使用的可能的受保护群体(如种族),以及数据集的大小。我们将超过10,000个实例的数据集称为大型数据集。请注意,由于某些算法的规模不够大或运行时间太长,有些论文选择使用数据集的子集,例如[30]、[85]、[113]、[118]。为了完整性,我们还在上述表格的最后一列中列出了所有使用某个数据集的调查论文。

有时会专门选择数据集来提出所提出的方法和公平概念。例如,[103]在提出其设施位置的群体表示概念时使用了北卡罗来纳州的选民信息。其他数据集,如银行[139]和信用卡[82],其常见的受保护群体是婚姻状况和性别,也与公平聚类背后的动机有着相当清晰的联系。其他数据集,如iris[145],与之联系不太直接,但仍可用作实验的玩具数据集。我们还发现,最常见的受保护群体是性别、性别和种族。列出的没有特定受保护群体的数据集用于执行个人水平公平概念的论文,因此不需要特定的受保护群体。

可视化数据集经常用于深度聚类;这些都列于表4中。如第四节所述,深度聚类不同于更传统的方法,可以学习更强大的表示。在表4中,描述了数据集,并列出了受保护的组。

B. REAL-WORLD APPLICATIONS

机器学习模型已经被用于帮助绝大多数的决策和风险评估过程,从大学录取和在线推荐系统。为了进一步了解这一主题,Makhlouf等人[80]在他们的论文中讨论了ML在决策过程中的一般应用,以及一些需要考虑公平性的现有程序。Suresh和Guttag [168]还展示了如果在整个ML管道中不考虑偏差,ML模型可能会产生无意的、破坏性的后果。因此,在本节中,公平聚类ML模型的实际应用程序被用来激发该领域的进一步研究。

1) 银行贷款支付

我们在第三节之前描述了类似的情景,用于群体概念。基于聚类的模型可以用来确定应该根据他们违约的可能性而获得贷款的个人。在发放之前,许多因素可能会发挥作用,例如申请人的教育背景、过去的付款历史、过去的账单、付款金额和年龄。由于系统性问题,如工资差距,某些受保护少数群体的成员,如妇女或POC,可能收入较低。此外,已婚人士的信用可能会比单身人士更好。用于短名单候选人发放的香草聚类算法在无监督的情况下不能纠正数据中存在的不同类型的偏差,可能会将单身人士、妇女和POC聚类为更高风险,更可能违约。这样的预测可能会导致受保护群体获得较少的贷款或贷款利率较高,从而进一步促进手头的系统性问题。一个设计良好、公平的聚类算法可以通过要求平衡或有界表示来纠正不同影响,从而在每个聚类中大致固定受保护群体的比例。

2) JOB SHORTLISTING

存在许多基于ML的方法,它们通过求职者进行解析,以便筛选出那些应该接受面试的人或进入下一个应用程序步骤[9]。自动化这一步骤可以减少错误、人为偏见、解析应用程序所花费的时间,并允许在候选[13]之间进行简单的比较。聚类算法可以根据候选人的技能集和其他属性,以及它们与工作要求的匹配程度,对被接受和被拒绝的候选人进行筛选。常见的候选人属性包括教育、专业、经验、技能、当前位置、当前就业状况、年龄、性别等[169]。不考虑偏差的聚类算法可能会拒绝POC或女性,而接受不太合格的白人男性[80]。一个公平的聚类算法,例如,平衡,对于敏感群体的性别,将确定每个群体中女性的比例,将被拒绝的群体中最合格的女性分配给被接受的群体,以解释偏见。公司通过看到更多合格的个人而受益,申请人不会因为其固有属性而被拒绝而受到歧视。

3) 大学招生

基于聚类的机器学习模型可用于短名单录取候选人、拒绝大学申请的确定拒绝者,或选择最有可能参加的人。考虑的属性可能包括GPA、领导角色、父母的教育水平和一般学生信息。未经检查的偏见算法可能会基于与候选人能力无关的因素拒绝候选人,例如他们的街道地址[80],这可能与其他属性相关,如社会经济背景或种族。确保个人公平(第三节)的公平聚类算法可以防止具有大致相似成绩或领导角色的个人基于与种族无关的属性被不同地聚类。

4) 设施位置

ML模型可以帮助确定设施位置,例如帮助确定投票/投票站或医院位置。如前所述第三节所述,只考虑一个地区的住宅数量的常规聚类模型可能会不公平地在郊区、城市和农村地区之间分配设施。公平聚类模型应该考虑一个地区的条件,考虑其他约束,如比例。根据设施的用途,按比例可以确保设施得到平等的[31]服务。另一个概念,组表示,可以确保集群中心/设施被公平地放置,从而使中心代表集群,或者每个区域都有自己的中心[103]。这可以在确保投票中心得到类似的服务方面发挥作用,并且与大多数样本地点有合理的距离。

犯罪者重新犯罪的可能性

ML模型已被用于预测前犯罪者重新犯罪的风险/可能性,以抵消种族等因素的人为偏见[170]。犯罪者再犯罪可以被解释为概率,可以由软聚类算法确定,其中一个点可以分配每个聚类的一定比例-聚类标志着高风险重新犯罪或低风险。许多因素可以帮助预测再犯罪,包括年龄和先前定罪次数[170]。然而,正如COMPAS工具[18]所发现的那样,由于用于训练此类算法的数据可能存在系统性偏差,学习模型可能会仅仅基于他们的种族[79]放大对POC的偏见。在这种情况下,一个设计良好的公平聚类算法可以确保个人公平-相似的个人(在犯罪行为和其他属性方面)不论性别或种族[89]都会被聚类地相似-可以防止受保护少数群体成员与具有相似犯罪统计的非群体成员相比被分配过高的风险率。

6) 推荐系统

基于聚类的推荐系统已被用于许多目的,从电影推荐[171]到远程学习课程推荐[172]。由于聚类算法可能会由于数据的变化而有偏差,因此这些推荐系统也可能会有偏差。例如,这可能意味着给男性的建议偏向于女性的[80]。因此,推荐系统应针对个人进行个性化设计,而不应明确地偏向于性别或种族。一种确保一定程度的个人级别公平的聚类算法可以防止某些组自动接收某些推荐,而不管他们的其他属性。

7) 委员会选择

最后一个例子,也在[125]中提出,是选择代表一个人口中的每个群体的委员会。在不同的社区内建立了委员会,用于政治、教育、筹款等目的。目标可能是有一个委员会,每个小组至少有一个代表,或者有一个不同的委员会,每个小组都有多个成员有良好的代表。一个公平的聚类算法可以确保受保护的群体得到良好的代表,而不考虑个人的种族或政治偏见,使用诸如多样性感知的公平[125]、群体表示[103]或公平摘要[128]等概念。

6.未来的研究方向和挑战

A.考虑其他集群目标

正如我们在文章中看到的,特别是在第四节,大多数公平聚类的研究考虑基于中心的聚类算法(如k中心、k中位数等),也有一些考虑分层聚类目标和谱聚类。然而,还有许多其他的聚类算法和目标还没有从公平的角度来考虑。我们为基于密度的聚类方法和软聚类方法提供了研究方向。此外,由于内聚类方法更流行,我们考虑这第一种方法。

1) 基于密度的聚类

基于密度的聚类算法使用密度的概念或空间中点之间的距离来将点分配到聚类中,并将低密度区域中的点标记为噪声点或异常点。有许多不同的方法试图执行基于密度的聚类,如DBSCAN[47]和OPTICS[48]。对于该任务,作为第一步,可以考虑诸如DBSCAN[47]和OPTICS聚类[48]等流行算法。此外,研究框架可以扩展到其他基于密度的聚类方法,如PreDeCon[173]和SUBCLU[174],因为这些方法与DBSCAN方法有相似之处。

一般来说,我们可以考虑以下的内聚类方法来提高这些聚类算法的公平性。首先,根据算法的特点和应用场景,确定一个聚类目标。这一目标使人们最终能够提供公平的理论保障。接下来,根据对应用程序场景的适用性,决定如何执行公平性约束。例如,如果考虑了平衡,则可以考虑下界平衡或上界平衡;如果考虑了一定比例的点,则可以考虑有界表示。然后,可以提出近似于目标的近似算法。得到的近似比是公平近似算法在目标上与目标最优值相比的代价。它也可以衡量与原始目标相比,公平分配点存在多少失真。最后,可以使用真实世界的数据集(如第五节所述)对所提出的方法进行评估,并可以分析公平性的改进。

与此问题相关的还有其他前瞻性的研究挑战。到目前为止,大多数研究都是基于中心的聚类,公平定义可能也有相应的设计。因此,根据所分析的聚类算法,可以发展和研究不同的公平性概念。例如,DBSCAN在聚类时将某些点标记为离群值(称为噪声点),这可能需要不同的公平性概念,因为某些点现在根本没有被聚类算法表示出来。另一个前瞻性的研究方向是研究对受保护群体的多个分配。作为第一步,这两组的病例可以像在[30]的开创性工作中一样进行研究。未来的工作可以包括多个组,点被分离地分配给每个受保护的组。随后,可以分析其中点可以同时分配给多个受保护组的设置。最后,还可以在运行时间方面进行改进——虽然为上述聚类算法提供公平的简单优先方法可以有更长的运行时间,但对于任何实际实现,都需要提高其公平变体的渐近时间复杂度。

2) 软聚类

如前所述,许多讨论和现有的工作都集中在硬聚类算法上,其中一个数据点以二进制的方式属于一个聚类。也就是说,它要么属于一个集群,要么不属于一个集群。然而,在某些应用场景中,软聚类更适合。高斯混合模型[109]在这种情况下得到了广泛的应用,因此可能是本研究方向的初步重点。为了估计高斯混合模型中的聚类结果,采用期望最大化(EM)算法[175]经常被使用。EM是一种迭代方法,以寻找(局部的)最大似然或最大后验(MAP)估计的参数的统计模型,其中模型依赖于未观察到的潜在变量。因此,研究这类算法的公平性是一个新的研究方向。第一种方法和初始目标可以类似于上一节中关于基于密度的聚类方面所讨论的方法。一个关键问题是在软聚类存在的情况下重新定义公平性,以反映其概率性质。

B.改进的集群性能分析

公平聚类方法的目的是通过改变数据集中样本的聚类分配来提高聚类目标的公平性。众所周知,由于提高了公平性[118]、[176]、[177],聚类性能会降低,因为改变点标签来提高公平性可能会与原来的聚类分配相矛盾,从而导致聚类性能下降。虽然这种权衡是公认的,但目前还没有标准化的方法来衡量集群性能。

大多数研究工作衡量的聚类目标低于香草(原始/不公平)聚类目标[30],[85],[105]。然而,在某些情况下,以这种方式来衡量性能可能并不合适。请考虑以下示例:

• 当算法不可知公平性概念用于不同的聚类目标时:如果使用算法不可知性概念,但聚类目标不同,在公平执行后直接观察聚类目标的值不会导致良好的比较。例如,比较公平的k中心成本和公平的k均值成本是没有意义的。当使用[116]中那样的更一般的公平聚类方法时,就会出现这种情况。

• 当集群目标定义得不好时:这可以通过层次集群的上下文来理解。虽然最近提出了层次聚类的聚类目标,但传统的层次聚类是一种启发式的凝聚/分裂过程,没有一个分析目标来优化。因此,针对传统的层次聚类公平[32]的研究,不能通过一个聚类目标来衡量公平解决方案的聚类性能质量。

另外,可以使用传统的聚类性能指标来衡量公平性执行后的聚类质量。这些包括广泛使用的Silhouette得分[178],Calinski-Harabasz指数[179]或Davies-Bouldin指数[180]。这些也被用作一些公平聚类工作[32],[116],[127]中公平干预后聚类性能的度量。Silhouette得分特别吸引人,因为它是有界的,总是输出-1到1之间的值,使其易于解释。然而,这些指标也有一定的缺点-它们只适用于凸聚类的情况,在其他情况下可能不是性能的良好指标。因此,公平聚类的未来研究方向是研究和提出特定于公平性能上下文的新聚类性能度量标准。这也将公平聚类领域与长期从事测量聚类性能研究的子领域联系起来。

C. ADVERSARIAL ATTACKS AGAINST FAIRNESS

未来工作的方向主要是针对聚类算法的对抗性攻击,目的是降低给定聚类的公平性。随着越来越多的研究试图使聚类公平,聚类中的相反问题也成立。恶意实体可以为其个人利益和议程而寻求破坏公平。作为研究这一点的起点,利用数据中毒的工作在黑盒设置[181],[182]中进行集群将是有用的。在不改变攻击目标的情况下,在[32]中首先提出的攻击特别强大,因为它可以在不知道原始聚类算法的情况下进行。

我们可以使用[181]的攻击算法和有界表示[86]的公平概念来界定降低公平性的第一种方法。让聚类算法是k-means,其中k=2。在这里,为了确保公平,每个受保护群体的成员在一个聚类中需要在一些预先指定的最小和最大比例之间。[181]详细介绍了对抗攻击,其攻击者的目标是导致尽可能多的点从一个聚类流入另一个聚类。因此,在2路聚类设置中,由于该攻击算法可以改变属于每个聚类的点的比例,我们可以有效地扭曲输出聚类的所选公平度量。我们将有兴趣的读者推迟到[181],以了解更多有关攻击算法和威胁模型的信息

在此之后,可以扩展许多可能的方向来降低公平性的对抗攻击:

• 黑盒攻击:可以研究对聚类算法的黑盒攻击,从而破坏所获得的聚类的公平性。由于这些是黑盒攻击,攻击是强大的,因为它的工作,不管防御者使用的聚类算法的选择。

• 白盒攻击:针对防御者选择的聚类算法(或其公平变体)的白盒攻击也可以被研究。

• 其他攻击模式和威胁模型:当考虑其他攻击模式时的攻击,如对数据集的不完全知识、灰盒攻击、可能被破坏的不同公平性定义,以及替代/增强的攻击目标,以及对对手的成本。

• 可转移性和其他公平概念:就像在监督学习[183]中一样,可以进行分析,观察生成的对抗样本是否可以在算法、公平定义和攻击设置之间转移。

D. 更多的深度聚类的方法

深度聚类是将深度学习范式与无监督学习中的经典聚类方法的结合。所使用的方法不同于传统的聚类,通常需要在测试阶段存在标签,以使用标准化互信息(NMI)评分[184]等指标来评估深度学习模型。在标签可用于地面真实聚类的情况下,与传统聚类方法如k-均值[185]等传统聚类方法相比,深度聚类已被证明可以达到最先进的性能。因此,与传统的聚类方法一样,确保这些模型的公平性也很重要。

但是,如第四节所述,在这方面并没有进行多少研究。据我们所知,只有三项研究工作涉及深度公平聚类: [101],[102],[111]。因此,从公平的角度来研究深度聚类是未来工作的一个重要方向。未来的工作存在许多方面,类似于传统聚类方法的公平性研究。

E. 评估感知公平

为了改善具有显著社会影响的聚类中的公平性,需要改进评估阶段,以考虑到受保护群体和个人所感知到的公平性。显然,虽然人们可以基于相关的公平成本和定义开发ML的公平算法,但公平算法只有在积极的社会意义上影响受影响的社区时才是有益的。为此,有很多重要的研究工作来衡量提出的算法在公众感知方面有多公平。这样的实验可以在特殊的焦点小组中进行,其中个人和小组(基于手头应用程序的保护属性)直接受到使用聚类算法的应用程序的影响,可以提供改进的指导方针。基于这一反馈,还可以提出更好的与社会和实际相关的公平定义。先前关于聚类公平性的研究没有考虑到对这种形式的评价,因此,使用少数群体的反馈作为评价指标将导致更公平的系统和相当大的研究新颖性。

另一个与聚类中实际感知公平性相关的维度是所使用的数据集。除了确定需要实施公平聚类的应用领域外,获取可能导致最终不公平聚类的真实世界数据集也很重要。这很重要,原因有以下几点:1)在实际真实数据集上获得拟议算法的实证结果可以揭示这些算法在实际应用场景中的表现,而不是在合成场景中的表现;2)这样做可以打开一个机会,了解偏差是如何首先潜入数据集的,这可能会导致开发更公平的算法和更好的公平定义。为此,可以从实际招聘机构或大学录取过程中获取数据集,然后用它们来衡量拟议的公平算法是否提供更公平的结果。然后,可以调整分析模型和算法,以便它们被用来引入更多的公平性到这些真实世界的应用(如录取/选择过程)中。

如前所述,对算法公平性的感知是评估的一个重要指标。因此,公平聚类研究的评估计划和方法应包括进行定期的会议和焦点小组。在这里,所提出的公平算法将被实时使用,少数民族和受影响的政治团体将对其公平性进行观察和反馈。例如,可以向属于某些受保护组的用户展示普通聚类算法的执行情况,以及公平变体的执行情况。虽然公平的算法可能更好,但就实际受保护群体成员的期望而言,它可能仍然没有达到一个可接受的标准。这种建设性的反馈可以帮助构建对整个社区有用的实际工具和算法,并提供一些真正的社会意义。在[186]等算法决策系统中,从评估感知公平性的类似努力中也有很大的借鉴范围。

F. 通过可扩展的公平聚类来处理高维数据集

一般来说,与其他数据分析技术类似,聚类算法也受到维数[187]的诅咒,并且在高维数据集[188]上往往表现不佳。此外,[30]等人提出的第一种公平聚类的方法也是不可扩展的,只能应用于小型数据集。这是由于第一步涉及到球流体分解,它有一个超二次的运行时间。

虽然扩展这项工作的研究试图使公平的聚类具有可伸缩性,但仍存在许多缺点。例如,Backurs等人[99]提出了一种可扩展的球流体分解算法,该算法在(几乎)线性时间内运行,然而,这种方法只适用于有2个保护组的情况。这种趋势在其他聚类算法提出的公平聚类方法中也普遍存在。例如,提出的公平光谱聚类算法[100]不规模与数据集大小和尺寸,甚至更一般的解药数据公平聚类方法[116]作者指出,他们的工作的一个主要限制是算法的运行时间时应用于高维/大规模数据。

因此,公平聚类研究的一个可能的未来方向是使拟议的公平算法可扩展,并允许它们处理高维数据。文献[188]、[189]中已经广泛研究了能够处理高维数据的聚类算法,未来的研究可以将这些技术应用于公平聚类领域。研究人员还可以旨在增强现有的公平聚类方法,以使它们可扩展。

G. 将公平的聚类与受约束的聚类联系起来

约束聚类问题解决了已知关于聚类问题的附加信息的情况,并可用于改进聚类[190]的发现。这种场景出现在现实世界的问题中,领域专家可以提供额外的边信息来帮助聚类过程。在最简单的情况下,这可以转化为传统的聚类问题,我们希望对原始的聚类问题[191]施加一些实例级的约束。虽然对于不同的聚类算法可以形成许多不同形式的约束,但我们考虑了必须链接和不能链接的约束,以激发公平聚类和约束聚类之间的联系。

考虑个人层面的公平和假设存在一个公正的领域专家知道某些样本数据集需要属于相同的集群(例如,招聘人员面试候选人,发现他们同样适合一个位置,不管他们保护组属性,如性别或种族)。相反,领域专家还可以提供侧信息,表明两个样本不应该属于同一个集群(考虑到前面的例子,招聘人员知道一个候选人在访谈中表现良好,而另一个没有,不管他们受保护的群体成员)。这些关于数据样本的侧边信息可以被简单地编码为数据样本之间的必须链接和不能链接的成对约束。然后,如果候选人入围使用聚类算法如k均值(类似于工作入围例子在第三节和第五节),这些必须链接和不能链接约束可以作为输入(连同原始数据集)约束k均值算法如PCKMeans [192]或COP-KMEANS [52]执行个人水平的公平。

以类似的方式,甚至其他的公平约束(比如那些强制执行组级公平的约束)也可以在领域专家的帮助下进行编码。然后可以使用现有的约束聚类算法来满足公平标准。作为未来的研究方向,我们将从约束聚类的角度来激励公平聚类,这在以往的工作中得到了广泛的研究。另一个重要的研究贡献可能是为公平聚类问题何时可以转化为约束聚类问题,以及可以使用的不同类型的约束和公平概念提供理论见解。

7. 结论

在这项工作中,我们提供了有关公平聚类的第一次调查。最初,我们讨论了机器学习中聚类和公平性的相关细节(第二节)。然后,我们将用于使聚类公平的不同公平概念分类(第三节),并提出直观的分类方法。我们还将当前的公平聚类文献组织成许多子类别(第四节),并作为结果提供了该领域的全面概述。我们还详细描述了许多新的见解,并描述了未来工作的可能方向(第六节)。我们通过这篇调查文章的目标是通过提供该领域的集中介绍,为现有的公平聚类工作增添内容,这对研究人员和行业从业者都有用。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值