Training Data Debugging for the Fairness of Machine LearningSoftware 论文精读

本文链接：https://blog.csdn.net/qq_52599310/article/details/132385905

我选择报告的这篇文章是关于机器学习软件的公平性

概念解释

Logistic Regression

逻辑回归

Naive Bayes

SVM

LSR

逻辑回归

AOD and EOD

首先报告的是这篇文章的研究的背景

Background

ML software plays a significant role and encompasses numerous application scenarios.

机器学习软件在很多的应用场景中都扮演着很重要的角色，就比如文章采用的一些数据集中，进行贷款申请的批准、进行心脏病问题的预测、对于再犯罪的概率的预测等等。

而关于这类机器学习软件的公平性的研究也被认为是软件工程领域很有价值的研究问题

The fairness of ML software has been regarded as a valuable research problem in the field of SE.

Related Work

而其他的研究者们所做的相关的研究主要在这三个方向上进行

Fairness testing and evaluation评估侧重于检测带有偏见的实例和计算软件预估的结果的公平性
Bias removal algorithm 去数据歧视算法
- pre-processing 在模型训练之前预处理数据集
  - 数据点的增删和赋权
  - 特征选取
  - DIR 通过其他的特征去预估敏感特征
- in-processing 修改模型
- post-processing 修改预测结果
Data debugging 定位并修改引起程序错误的数据 outliers异常值

这三个方向上的方法在实验过程中都要涉及到，但是这篇文章的创新在于提出了新的去数据歧视的角度和算法

关于训练数据集对于模型公平性的影响，研究者们主要有两种想法

ML software follows the data-driven programming paradigm by obtaining its decision logic from training data. Researchers have attempted to explain how training data affects the fairness of ML software from various perspectives:

The size of feature sets 扩大数据集的数据量来提高公平性
Biased labels and imbalanced distributions Fairway基于这种方法移除受歧视的标签的样本受歧视的标签和内部分布不均匀共同导致 Fair-Smote

在这些相关研究及认知的基础上，这篇文章提出了下面的想法：训练集中的受歧视特征

This paper takes a different angle by exploring how biased features in training data can cause unfairness, deviating from previous studies.

并且提出了新的预处理的算法

Goal

(a) identify which features and which parts of them are biased

(b) remove the biased parts to recover as much helpful and unbiased information as possible

Review of concepts

ML software

二分类任务可以拓展到多分类任务

输入：d个特征值

输出：标签y：0或1

Sensitive Feature

可以根据该特征将数据集分为两类

Group Fairness

两个集合的数据有接近的数据获得较好的标签

Motivation

Methods

Identify the biased features and estimate the biased parts of them 识别带有偏见属性的特征并且计算这一部分的值
Exclude the bias parts from training samples 删除敏感特征，并且在和敏感特征相关的特征减去相关的部分，使用修改过的数据集训练模型
Apply the same revision on the testing samples 对于待测试数据，做同样的修改

输入输出和初始化

有d个维度的特征的数据集和相对应的标签

x的下标表示特征的序号，上标表示第j个数据

y的下标表示第j个数据的标签

用于测试的特征

输出训练好的模型以及测试特征的预估标签

初始化两个d-1长度的数组，用来存放线性回归方程中的系数：截距和斜率，初始化为0

Str：所有的n个敏感特征组成的列向量

Identify

算法4-10行

对于n个数据的第i个特征组成的列向量

使用线性回归模型通过这n个数据计算拟合成关于敏感特征列向量的函数

最小二乘法残差平方和作为损失函数对于两个系数分别求偏导令偏导为0 代入数据解方程

通过Wald test 检验b为零的假设计算p值 p大于等于0.05 说明接受假设认为当前特征和敏感属性是没有相关性的判断数据的相关性

相关则记录，否则跳过进行下一个特征的计算

Exclude

算法11-15行

删除敏感特征

Intuitively, 𝑥ˆ 𝑛 is the explained variance可解释变异 in the original non-sensitive features 𝑥𝑛 by the sensitive feature 𝑥𝑠 . We consider 𝑥ˆ 𝑛 as the biased part of 𝑥𝑛

在其他特征上减去其拟合的关于敏感特征的函数

使用修改后的数据集训练模型

Apply

对于待测试数据做相应的处理

使用训练好的模型得出结果

Results

接下来是实验的结果部分

首先先报告一下实验的一些前期准备

Experimental setups

9个数据集

由于Adult和COMPAS数据集有两个敏感特征sex和race

所以需要分开考虑共计11种情况

选取4种算法作为基准来比较提出的算法的优越性

Prediction settings

效仿Fairway采用的方法，将一个数据集的85%数据用来训练，15%数据用来测试，实验进行100次来消除随机性的影响

采用三种分类器来训练：LS NB SVM

Metrics

通过结果来评估公平性和正确率的指标

fairness metrics

DI 在敏感特征的两个组别里，估计值获得更优的标签的概率的比值，unprivileged比privileged，所以比值更接近1，说明更公平，所以我们考虑|1-DI|

SPD 两个概率的差值 |SPD|越接近0，说明越公平

选择的原因：

能很好地反映公平性
只需要预测值y
缺一不可

performance metrics

ACC 正确率分母是样本的总数分子是标签的预测值和真实值相同的样本的数量

Recall 正样本被预测成功的概率分母是正样本的数量分子是被正确预测的正样本的数量

False Alarm 负样本被预测为正样本的错误率分母是负样本的数量分子是被误报的负样本的数量

Analysis method

得到上述指标之后，我们如何比较这两种方法的结果的差异显著性

判断metric是否差距过大

威尔科克森秩和检验

Wicoxon秩和检验的p值

Cliff δ值

判断WTL

Experimental results

fairness improvement

原来的数据训练的模型和我们修改后的数据训练的模型的公平性比较

figure3

蓝色代表|1-DI|的变化

橙色代表|SPD|的变化

越负越说明公平性提高

另外三个performance metrics变化很小也说明了对于performance的影响很小甚至在一些场景下是调高了预测的准度的：compas和german的recall参数

得出结果：

Our method can greatly improve the fairness of the original ML software and slightly damage its performance.

compared with the state-of-the-art fairness algorithms

fairness

Table2

LTDD方法和其他方法以及原始模型的比较

灰色的背景是代表了LTDD由于基准算法（(the Wilcoxon 𝑝-value is less than 0.05, and the Cliff’s delta 𝛿 is greater than 0.147）

黑色的背景表示输了

白色代表可以认为是一样的效果

因为和原始模型比较过了，所以得出结果：

We conclude that our method surpasses the baselines in most cases.

performance

Table3

比较的是原始模型为基准，比较其他方法和LTDD方法和初始模型相比较之下的performance的改变

同样还是用背景的颜色指示WTL

明显发现所有的方法都不如原始的分类器

但是我们的方法在33种情况中只输了10次，优于除了DIR的8次的其它的方法

而在False Alarm这个参数上的表现是最好的，只输了两次

所以说在performance的比较上我们的方法可以认为是损害和其他方法相当甚至更小

总结一下：

Our method performs better than baselines in the improvement of 公平性指标 with the performance damage less than or comparable to baselines.

在不同的分类器的基础上，再进行刚才的比较

Table4

在NB和SVM上使用我们的方法

fairness

每一列的和是33，说明是11个情况分别在三种分类器的基础上进行实验计算指标DI和SPD

比较LTDD方法和原始模型以及其他的方法

因为Fairway是基于logistic regression model设计的，所以不适用于其他的分类器

得到结果：

in 7 of 8 scenarios, our method is significantly better than baselines. When compared with Fair-Smote, our results on DI are similar, but our number of wins is still slightly higher than Fair-smote

证明我们的方法是可扩展的

performance

在不同的分类器的基础上

比较不同的方法和原始模型的performance的比较

得到的结果仍然是所有的方法都有损害但是LTDD方法损害是相当的甚至更小

Table5

With three different classifiers, our method still defeats baselines in most cases under fairness indicators and also has the least loss under ACC and False Alarm.

actionability

接下来也是论文中的一个创新点：提出了可行性实用性的分析

Figure4

提出新的指标：the rate of favorable decisions

水平短线代表：总体的有利决策率

两个端点代表受优待组和不受优待组的有利决策率

发现：在绝大多数的情况下，除了bank意外，LTDD都是通过提高不受优待组的概率，消弱受优待组的概率，来实现公平的同时，在总体的有利决策率上没有太大的变化

而Fair-Smote方法在多数情况下将两组的概率都提高了，需要消耗额外的社会资源

结论：Our method improves the fairness indicators while ensuring that the whole favorable rate is close to the original value and does not need more social resources.