Training Data Debugging for the Fairness of Machine LearningSoftware 论文精读

我选择报告的这篇文章是关于机器学习软件的公平性

概念解释

Logistic Regression

逻辑回归

Naive Bayes

SVM

LSR

逻辑回归

AOD and EOD

首先报告的是这篇文章的研究的背景

Background

ML software plays a significant role and encompasses numerous application scenarios.

机器学习软件在很多的应用场景中都扮演着很重要的角色,就比如文章采用的一些数据集中,进行贷款申请的批准、进行心脏病问题的预测、对于再犯罪的概率的预测等等。

而关于这类机器学习软件的公平性的研究也被认为是软件工程领域很有价值的研究问题

The fairness of ML software has been regarded as a valuable research problem in the field of SE.

Related Work

而其他的研究者们所做的相关的研究主要在这三个方向上进行

  • Fairness testing and evaluation评估 侧重于检测带有偏见的实例和计算软件预估的结果的公平性
  • Bias removal algorithm 去数据歧视算法 
    • pre-processing 在模型训练之前预处理数据集
      • 数据点的增删和赋权
      • 特征选取
      • DIR 通过其他的特征去预估敏感特征
    • in-processing  修改模型
    • post-processing 修改预测结果
  • Data debugging 定位并修改引起程序错误的数据 outliers异常值

这三个方向上的方法在实验过程中都要涉及到,但是这篇文章的创新在于提出了新的去数据歧视的角度和算法

关于训练数据集对于模型公平性的影响,研究者们主要有两种想法

ML software follows the data-driven programming paradigm by obtaining its decision logic from training data. Researchers have attempted to explain how training data affects the fairness of ML software from various perspectives:

  • The size of feature sets 扩大数据集的数据量来提高公平性
  • Biased labels and imbalanced distributions  Fairway基于这种方法移除受歧视的标签的样本  受歧视的标签和内部分布不均匀共同导致 Fair-Smote

在这些相关研究及认知的基础上,这篇文章提出了下面的想法:训练集中的受歧视特征

This paper takes a different angle by exploring how biased features in training data can cause unfairness, deviating from previous studies.

并且提出了新的预处理的算法

Goal

(a) identify which features and which parts of them are biased

(b) remove the biased parts to recover as much helpful and unbiased information as possible

Review of concepts

ML software

二分类任务  可以拓展到多分类任务

输入:d个特征值

输出:标签y:0或1

Sensitive Feature

可以根据该特征将数据集分为两类

Group Fairness

两个集合的数据有接近的数据获得较好的标签

Motivation

Methods

  1. Identify the biased features and estimate the biased parts of them 识别带有偏见属性的特征并且计算这一部分的值
  2. Exclude the bias parts from training samples 删除敏感特征,并且在和敏感特征相关的特征减去相关的部分,使用修改过的数据集训练模型
  3. Apply the same revision on the testing samples 对于待测试数据,做同样的修改

输入输出和初始化

有d个维度的特征的数据集和相对应的标签

x的下标表示特征的序号,上标表示第j个数据

y的下标表示第j个数据的标签

用于测试的特征

输出训练好的模型以及测试特征的预估标签

初始化两个d-1长度的数组,用来存放线性回归方程中的系数:截距和斜率,初始化为0

Str:所有的n个敏感特征组成的列向量

Identify

算法4-10行

对于n个数据的第i个特征组成的列向量

使用线性回归模型通过这n个数据计算拟合成关于敏感特征列向量的函数

最小二乘法  残差平方和  作为损失函数 对于两个系数分别求偏导 令偏导为0 代入数据解方程

通过Wald test 检验b为零的假设 计算p值  p大于等于0.05 说明接受假设 认为当前特征和敏感属性是没有相关性的  判断数据的相关性

相关则记录,否则跳过进行下一个特征的计算

Exclude

算法11-15行

删除敏感特征

Intuitively, 𝑥ˆ 𝑛 is the explained variance可解释变异 in the original non-sensitive features 𝑥𝑛 by the sensitive feature 𝑥𝑠 . We consider 𝑥ˆ 𝑛 as the biased part of 𝑥𝑛

在其他特征上减去其拟合的关于敏感特征的函数

使用修改后的数据集训练模型

Apply

对于待测试数据做相应的处理

使用训练好的模型得出结果

Results

接下来是实验的结果部分

首先先报告一下实验的一些前期准备

Experimental setups

9个数据集

由于Adult和COMPAS数据集有两个敏感特征sex和race

所以需要分开考虑 共计11种情况

选取4种算法作为基准来比较提出的算法的优越性

Prediction settings

效仿Fairway采用的方法,将一个数据集的85%数据用来训练,15%数据用来测试,实验进行100次来消除随机性的影响

采用三种分类器来训练:LS NB SVM

Metrics

通过结果来评估公平性和正确率的指标

fairness metrics

DI  在敏感特征的两个组别里,估计值获得更优的标签的概率的比值,unprivileged比privileged,所以比值更接近1,说明更公平,所以我们考虑|1-DI|

SPD 两个概率的差值 |SPD|越接近0,说明越公平

选择的原因:

  1. 能很好地反映公平性
  2. 只需要预测值y
  3. 缺一不可
performance metrics

ACC 正确率 分母是样本的总数 分子是标签的预测值和真实值相同的样本的数量

Recall 正样本被预测成功的概率 分母是正样本的数量 分子是被正确预测的正样本的数量

False Alarm 负样本被预测为正样本的错误率 分母是负样本的数量 分子是被误报的负样本的数量

Analysis method

得到上述指标之后,我们如何比较这两种方法的结果的差异显著性

判断metric是否差距过大

威尔科克森秩和检验

Wicoxon秩和检验的p值

Cliff δ值

判断WTL

Experimental results

fairness improvement

原来的数据训练的模型和我们修改后的数据训练的模型的公平性比较

figure3

蓝色代表|1-DI|的变化

橙色代表|SPD|的变化

越负越说明公平性提高

另外三个performance metrics变化很小也说明了对于performance的影响很小甚至在一些场景下是调高了预测的准度的:compas和german的recall参数

得出结果:

Our method can greatly improve the fairness of the original ML software and slightly damage its performance.

compared with the state-of-the-art fairness algorithms

fairness

Table2

LTDD方法和其他方法以及原始模型的比较

灰色的背景是代表了LTDD由于基准算法((the Wilcoxon 𝑝-value is less than 0.05, and the Cliff’s delta 𝛿 is greater than 0.147)

黑色的背景表示输了

白色代表可以认为是一样的效果

因为和原始模型比较过了,所以得出结果:

We conclude that our method surpasses the baselines in most cases.

performance

Table3

比较的是原始模型为基准,比较其他方法和LTDD方法和初始模型相比较之下的performance的改变

同样还是用背景的颜色指示WTL

明显发现所有的方法都不如原始的分类器

但是我们的方法在33种情况中只输了10次,优于除了DIR的8次的其它的方法

而在False Alarm这个参数上的表现是最好的,只输了两次

所以说在performance的比较上我们的方法可以认为是损害和其他方法相当甚至更小

总结一下:

Our method performs better than baselines in the improvement of 公平性指标 with the performance damage less than or comparable to baselines.

在不同的分类器的基础上,再进行刚才的比较

Table4

在NB和SVM上使用我们的方法

fairness

每一列的和是33,说明是11个情况分别在三种分类器的基础上进行实验计算指标DI和SPD

比较LTDD方法和原始模型以及其他的方法

因为Fairway是基于logistic regression model设计的,所以不适用于其他的分类器

得到结果:

in 7 of 8 scenarios, our method is significantly better than baselines. When compared with Fair-Smote, our results on DI are similar, but our number of wins is still slightly higher than Fair-smote

证明我们的方法是可扩展的

performance

在不同的分类器的基础上

比较不同的方法和原始模型的performance的比较

得到的结果仍然是所有的方法都有损害但是LTDD方法损害是相当的甚至更小

Table5

With three different classifiers, our method still defeats baselines in most cases under fairness indicators and also has the least loss under ACC and False Alarm.

actionability

接下来也是论文中的一个创新点:提出了可行性实用性的分析

Figure4

提出新的指标:the rate of favorable decisions

水平短线代表:总体的有利决策率

两个端点代表受优待组和不受优待组的有利决策率

发现:在绝大多数的情况下,除了bank意外,LTDD都是通过提高不受优待组的概率,消弱受优待组的概率,来实现公平的同时,在总体的有利决策率上没有太大的变化

而Fair-Smote方法在多数情况下将两组的概率都提高了,需要消耗额外的社会资源

结论:Our method improves the fairness indicators while ensuring that the whole favorable rate is close to the original value and does not need more social resources.

Discussion

延伸问题的报告 提出的想法 但是没有经过实验的验证

偏见属性的分布

Figure5 p26

偏见属性在总体的特征里占的比例很高

the high association with the sensitive feature is universal in the data set

We argue that the proportion of biased features may be related to the fairness improvement effect of LTDD

可以看到German、Bank、Student这三个的比例是最低的

根据figure3的图像对比之下 p20

bank、student的公平性提升几乎没有

得出结论:the proportion of biased features may be related to the fairness improvement effect of LTDD

通过实例来看经过处理后的受优待组和不受优待组的分布的区别减小

figure6

年龄的特征在两个组中的分布 非歧视特征

采用的指标是

橙色点代表的是中位数

紫色三角形代表的是平均值

绿色代表的是异常值

经过处理后,受优待组和不受优待组的分布都有所改变,并且来到一个分布很接近的程度

证明LTDD方法处理过的数据在消除了受歧视特征的影响之下,特征在不同组别中的分布是相似的

说明很好的消除了受歧视特征的影响

其他的公平性指标

Table6

AOD

EOD:不受优待组被预测为有利决策的概率与受优待组被预测为有利决策的概率的差的绝对值之和

越小说明越公平

EOD=y∈{−1,1}∑​∣P(Y^=1∣Y=y,Z=−1)−P(Y^=1∣Y=y,Z=1)∣

在大部分情况下,通过这两个指标反应公平性的前提下,我们的方法都是优于Fair-Smote的

只有最后一个SVM之下做EOD指标比较时,Lose的情况多一点,但是均值还是优于Fair-Smote方法的

DI-SPD

通过给出特殊情况可以发现

DI和SPD是对于同样的样本,会产生不同的结果

通过计算皮尔逊相关系数,也可以知道二者之间没有什么相关性,不能互相取代

多项式回归-线性回归比较

发现线性回归的效果更好

Future Research

尝试更多的方法进行特征的分布的建模:Try implementing more effective techniques for modeling feature distribution and association.

使用更多的传统的软件工程方法apply more traditional SE methods and ideas to the research of ML software

take into account the actual cost while focusing on fairness 都应该像本文一样关注现实的适用性

存在的问题

these datasets may not be sufficient, because the distribution and characteristics of different data sets are not the same

test how our method performs in complex neural networks神经网络

我们可以发现,在选择了不同的指标的情况下,可能会有不同的结果,就比如AOD和EOD的结果

在一些指标下我们的方法表现会优于其他方法,在另一些指标下则不然,所以要根据实际情况,选择想要的进行优化的指标来评估方法的优越性

the indicators should be selected reasonably according to the actual scenario

Questions

Sensitive features是如何确定的?

因为很多数据集中的sensitive feature 选取的是race sex的但是

age在有一些数据集中不被认为是敏感特征

根据常识、法律、或者道德伦理要求,人为设定

同时,我们在定义sensitive feature的时候,就通过 将样本分为两个组别,但是如果遇到更复杂的情况如何处理?

可是遇到复杂的feature时将样本分为多个组如何处理,引出第二个问题

也包括说,每次考虑多种sensitive feature的情况,这样就可以删一些情况,9个数据集就不用考虑11种情况

多元线性回归?效果比每次只考虑一个会不会更好?

如何拓展到多分类任务?

二分类问题 如果是多分类任务 如何拓展

标签的分布更复杂  公平性怎么定义 什么指标去判定

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值