【AI安全与隐私论坛】第12期学习笔记——Trustworthy Al: to be Robust or to be Fair

开设了会议学习系列~

主要注重理解专家的科研和讲述逻辑,以及锻炼画概念图流程图的能力

绘图软件:PPT🤗😏😋

第12期论坛视频链接: AI安全与隐私论坛第12期-密歇根州立大学汤继良教授-可信人工智能中的鲁棒性和公平性可以兼得吗.

1 Introduction

在这里插入图片描述

2 研究鲁棒性时,公平性会下降吗?

在这里插入图片描述

2.1 生成对抗样本generate adversarial attacks

给定模型 f f f、图像 x x x和对的标签 y y y,有 δ \delta δ让模型 f f f的误差达到最大:
m a x ∥ δ ∥ ≤ ϵ L ( ( x + δ ) , y ) \underset{\left \| \delta \right \| \le \epsilon }{max} L((x+\delta),y) δϵmaxL((x+δ),y)

2.2 比较自然训练和对抗训练的标准误差和对抗误差

在这里插入图片描述

2.2.1 鲁棒性(观察黄色线与与蓝色线的差距)

鲁棒性是观察在加入对抗样本后,误差的变化。可以看出,natural training 的鲁棒性非常差:加入对抗样本后,模型基本上就错了。而对抗训练的鲁棒性就好于自然训练。

2.2.2 公平性(观察线的曲折程度)

公平性是观察针对不同种类的样本,模型的误差差距。可以看出,natrual training 点之间的差距明显小于对抗训练之间点的差距。

2.2.3 结论:提升鲁棒性时,公平性会下降

2.3 实验(证明普遍性)

2.3.1 理论背景

there are some classes whose data are harder to classify.
(class较难指高斯分布较分散)

2.3.2 natural training训练结果

在这里插入图片描述
线性分类模型最终得到的判定边界距简单的class较近。

2.3.3 对抗训练结果

在这里插入图片描述
判定边界向难的class方向移动。

2.3.4 实验结论

对抗训练让简单class的分类结果更加精确,让难的class分类结果误差更大(简单的更简单,难的更难)。即,一般情况下,对抗训练会造成不公平的问题
在这里插入图片描述

2.4 解决方案:如何在对抗训练中获得公平性

2.4.1 理论框架

在这里插入图片描述

2.4.2 实验结果

在保证整体表现的同时,可以提高误差下限。
在这里插入图片描述

3 在保证公平性时,会让鲁棒性下降吗?

3.1 公平训练和公平性

3.1.1公平训练 Objective of Fair Training

m i n f L ( f ; D c ) s . t . g j ( D c ; f ) ≤ τ . ∀ j ∈ Z ( F a i r n e s s c o n s t r a i n t s ) \begin{matrix} \underset{f }{min} L(f;D_c) \\ s.t.g_{j}(D_c;f)\le \tau. \forall j\in Z(Fairness constraints) \end{matrix} fminL(f;Dc)s.t.gj(Dc;f)τ.jZ(Fairnessconstraints)
Notes:
D c D_c Dc: clean training data
Z Z Z: all sensitive groups

3.1.2 公平的定义

在保证整体loss最优的情况下,不同group的loss的差距要小于特定值。

3.2 生成药饵攻击样本

The objective of Poisoning Attack:
m a x D p L ( f ; D c ) s . t . f ∗ = a r g m i n L ( f ; D c ∪ D p ) a n d g j ( D c ∪ D p ; f ) ≤ τ . ∀ j ∈ Z \begin{matrix} \underset{D_p }{max} L(f;D_c) \\ s.t.f^* = argmin \quad L(f;D_c\cup D_p)\\ and \quad g_j(D_c\cup D_p;f)\le \tau. \forall j\in Z \end{matrix} DpmaxL(f;Dc)s.t.f=argminL(f;DcDp)andgj(DcDp;f)τ.jZ
让样本的导入导致公平训练结果的错误率尽可能地高。

3.3 实验:公平训练导致鲁棒性下降的原因

在这里插入图片描述
在这里插入图片描述
运用sphere defense方法,Natural training情况下,poison sample的攻击对accurancy影响不大。但是fairness training的情况下差别很大。
以上实验证明公平训练需要新的防御机制。

3.4 解决方案

Poison sample距离错误的样本的中心很近。Sphere defense会一初每个class的异常值。而公平学习不仅考虑label,还有考虑sensitive information(poison sample 也会考虑这个)。
所以我们也可以考虑移除每个sensitive group的异常值。
在这里插入图片描述

4 Conclusion

4.1 研究结论

AI Robustness and Fairness are related.

  1. Improving adversarial robustness can cause fairness issues.
  2. Fairness training can make AI models more vulnerable.

4.2 研究展望

目前的鲁棒性还没有达到要求。应当从以下两个方向努力。

  1. 导入模型的数据就是clean的。即先从perturbed data中找到clean data。
  2. 开发一些本身就具有鲁棒性的模型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值