【Bias 05】Representation Learning with Statistical Independence to Mitigate Bias

 

Abstract

偏见是当前机器学习面对的主要问题之一,表现在从医学研究中变量的虚假关联,到性别或面部识别系统中的种族偏见。但是在数据预处理阶段控制所有的偏见是笨重,甚至不可能的,因此需要在现有数据的基础上,建立公平学习特征的模型。

本文基于对抗训练建立模型,用两个竞争目标去学习特征,使得:(1)最大化对应任务的区分能力;(2)最小化偏见的statistical mean dependence。

具体来说,包含一个新的adversarial loss function,该损失鼓励去掉偏见和学习特征之间的关联性。

作者在人造数据、medical images(task bias)和性别分类(dataset bias)中实验,结果显示通过本文方法学习的特征有更好的表现,同时去除了偏见。

 

Introduction

  • Bias: one or a set of extraneours protected variables that distort the relationship between the input (independent) and output (dependent) variables
  • protected variabsles: variables that define the bias.
  • statistical mean independence: adversarial minimization of the linear correlation can remove non-linear association between the learned representations and protected variables, thus achieving statistical mean independence.

1. 本文认为Bias分为两类:Dataset bias和task bias。

  • 其中dataset bias通常表现为缺少足够的数据,例如,对于一个通过人脸预测性别的模型,可能在不同人种中表现不一,这体现在不同人种的训练数据量不同。
  • task bias,表现在对于神经成像应用,一些人口统计学上的变量,例如性别、年龄都会影响模型的输入:神经成像,和输出:诊断。

2. CNN通常用于提取图片特征,类似于其他机器学习方法,当不加以控制时,CNN倾向于捕捉偏见。

3. 近期的工作聚焦在:

  • causal effect of bias on database [44, 27]
  • learning fair models with de-biased representations based on developments in invariant feature learning
  • learning fair models with de-biased representations based on developments in domain adversarial learning

4. 本文,我们提出一个representation learning scheme,学习带有最少偏见的特征,本文的方法受启发于domain-adversarial training approaches [20] with controllable invariance [55] within the context of GANs [22].

  • 我们基于true和bias的预测值之间的Pearson 关系建立一个adversarial loss function。
  • 我们理论上证明了线性关系的adversarial minimization可以消除特征和bias之间的非线性关联,实现statistical mean independence。
  • 我们的框架类似adversarial invariant feature learning works.
  • 我们在Magnetic Resonance Images (MRIs)和Gender shades Pilot Parliaments Benchmark (GS-PPB) dataset上进行了测试。

 

Related Work

1. 机器学习中的偏见。近期解决这个问题的方法在:(1)建立更公平的数据集;(2)通过验证特征是否预测真实的输出,从现有数据中学习公平的特征。但是这类方法不能应用到连续变量上。

2. Domain-Adversarial Training:[20]使用对抗训练去做域适应任务,通过使用学习特征去预测域标签(二值变量:source或target),其他方法在损失函数,域discriminator设置或自洽上进行了修改。该方法致力于close the domain gap(通过被编码为一个二元变量)。

3. Invariant Representation Learning:这类方法旨在学习到一种“表示形式”,这种表示形式对数据的特别因素是不变的。(例如Bias 04,通过解耦place feature和appearance feature,得到相对稳定的representation)。例如:[58]使用一种信息模糊方法(information obfuscation approach),模糊处理训练时偏见数据的关联;[6, 40]引入一种正则化方法。[55]提出使用domain-adversarial训练策略去学习invariant feature。[43, 52]使用基于和域适应相似的损失函数来实现对抗技术,去预测准确的bias变量,例如52使用binary cross-entropy去移除性别的影响,[43]用linear和kernelized最小平方预测作为对抗部分。

 

Bias-Resilient Neural Network (BR-Net)

首先,通过cross-entropy定义分类损失。

进一步通过网络BP和一个新的损失函数,保证bias b对于feature F是statistical mean dependece。具体来说,求出:,建立一个新的分类器。通常用cross-entropy / l2 MSE loss,使分类器损失最大,但这并不能去除statistical dependence。因此,本文定义surrogate loss,去量化b的统计独立性。具体使用squared Pearson correlation coefficient(计算向量相似度,因为欧式距离无法考虑不同变量间取值的差异,因此使用Pearson correlation是更合适的。值域为[0, 1]越小越相关)去衡量:

我们旨在通过对抗训练,使得b和b_hat相似度为0,去除statistical dependence。整体看:

这个式子类似于GAN [22]和domain-adversarial training [20, 55],min-max game由两个网络定义。类似GAN,本文计算如下:

  1. 计算Lc,更新c和fe参数;
  2. 固定fe,最小化Lbp,更新bp参数;
  3. 固定bp参数,最大化Lbp去更新fe参数。

 

实验

synthetic experiments

人工生成了两组图片,每组包含512张图片,每张图片包含四个高斯块,对角块分别由控制。两组图片的不同在于,参数由不同均匀分布产生,其中第一组由U(1, 4),第二组由U(3, 6)。在此基础上,又给图片增加了一层高斯噪音。

实验希望模型通过来判别模型,而不是。但实验结果显示,vanilla和multi-task模型达到了95%的正确率,因为两组生成的均匀分布有交集,因此,正确率不应该超过90%(?),结果说明vanilla和multi-task模型都使用了的信息。

 从结果来看,本文方法不依靠来进行预测,说明feature和相互独立。

 

HIV Diagnosis Based on MRIs

在脑MRIs图片上,分类HIV患者和对照组(CTRL)。因为HIV患者的年龄比CTRL更大,因此我们想要消除年龄这个任务偏见。通过数据增强,将HIV和CTRL图片数扩充至相同。

task bias应该在个别组上进行处理,而不是整个数据集。本文仅在CTRLs上进行年龄的对抗训练,因为HIV患者表现出不规律的衰老。

 

Gender Prediction Using the GS-PPB Dataset

通过人脸预测性别,在Gender Shades Pilot Parliaments Benchmark,这个数据集包含1, 253张人脸图片,其中561张女性,692张男性。face shade通过Fitzpatrick six-point labeling system量化为6个类别,这个量化用于皮肤科医生对皮肤疾病风险的判断。

我们使用在ImageNet上预训练的VGG16和ResNet50,并且在GS-PPB上fine-tune,但是ImageNet中的人类,很少有darker faces,导致模型存在shade方面的dataset bias。 

 

总结

本文类似DANN(Bias 06)的思路:对于source domain和target domain,通过反梯度训练,使得模型无法分辨source / target domain,这使模型将两域特征投影到一个特征空间。本文延续该思路,不过是针对变量级别,为了消除变量带来的bias,通过min-max模型实现。

该方法体现在不希望模型通过bias变量去做判断。文中三个实验都是将具象化的bias,用adversarial training在特征空间“模糊”该变量,使得模型不依靠该变量去判断,从而达到不受该变量影响。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值