干货解读 | 逐步公平性约束下的强化学习

点击蓝字

6b8bb2285531c6a5eb19fcaa2d9fd932.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

1c2f794516af95a1c316aa432366a0fd.gif

2022年11月10日,由国际科技信息中心主办,AI TIME承办的全球青年科学家Talk “逐步公平性约束下的强化学习”, 邀请了来自卡内基梅隆大学计算机学院的教授吴志威,哥伦比亚大学博士后研究员邓准,带来关于强化学习的前沿研究分享。本期Talk共吸引了约1.8万专业领域观众观看。

bbffe7e2f844bf60cebc2cacbef7818e.jpeg

现代社会中,人工智能算法无处不在,被应用于信贷,就业和住房分配等领域。对于人工智能的广泛应用,为算法决策方面提供公平性至关重要。此外,许多应用场景包含了动态反馈:政策制定影响个人的状态分布,而状态分布反过来又影响下一步的政策决定。基于此,我们介绍了逐步公平性约束下的强化学习 (RL) ,要求每一步的决策都需要保证算法公平性。我们为此种强化学习提供了算法,并提供了关于策略最优性和违反公平性的惩罚的理论保证。我们的框架提供了有用的工具来研究公平约束在动态决策中的影响,并为强化学习领域提出了新的挑战。

2aa088198628b33099324409bb8a70b6.png

众所周知,如今的个人隐私数据常常会被收集并拿去分析,用来创造各种各样的AI或是机器学习模型,这些机器学习模型之后会被用来对人做各种不同的决策。有一个词叫做Consequential Decisions,就是机器决定有很多种后果,可以决定一个人的未来甚至影响一个人的未来,涉及到就业机会或者贷款机会等多个方面。在如今的美国,这些模型影响着人们的就学机会。在这些情况下,我们发现这些数学模型会有不公平的现象。在美国常见一些报道说:这些AI工具对某些人群不太管用,比如说脸部识别或者语音的机器学习模型。

大家发现这种模型对某些人群可能存在不公平性,甚至是歧视。因为之前的机器学习模型一直被广泛的应用,因此这些事情也引起了很多的关注。无论是学术圈还是工业界,都有着越来越多的研究去思考我们如何保证这些算法或机器学习模型的公平性。因此,我们将在接下来聊一下这些领域都在思考什么问题。

Algorithmic Fairness算法公平性

回想早期的一些讨论,我们会想起曾有些问题,如“为什么要考虑算法或机器学习的公平性”。其实,这些不公平性归根结底都是由人引起的。人们把自己的一些偏见带入到算法或是模型之中,而我们要做的就是让整个决策过程变得更加公平。针对“如果你担心某种机器学习模型会对某类人群、种群造成歧视,那么就在训练过程中不让模型看到这些信息”的说法,这些想法同样很值得人们思考。

下面有一个有趣的例子:哈佛大学近日面临一件官司,这官司大概是说哈佛大学在招生过程中对亚裔学生、华裔学生有很多歧视的现象,比如给他们设置了过高的入学门槛。如果哈佛大学在招生过程中可以看到申请人的种族信息,那么就可能有不公平的现象存在。因此,我们如果要保证公平性,就不能在决策过程中让算法看到人的种族信息。只有这样,才能使得整个过程更加公平。

然而,有一个更简单的例子证明了上述理论的缺陷,即便它看起来和我们常常理解的公平是极为相像的。

比如说今天大学招生办公室向我们的机器学习人员提出一个问题,我们能不能做一个很简单的机器学习模型帮助他们去招生。简化一下这个问题。

21de8a1ec06015660942f1bde9224089.png

假定招生过程中有两种信息最为重要——SAT Scores和GPA。我们同时拥有很多历史数据,但是有正面的label和负面的label。如上图所示,图中的蓝色线条完成了线性分类,尽管此时仍有很多情况无法分类,但确实是一个简化的机器学习分类模型。

以twitter为例,其存在一个功能,即如果我们要分享较大的图片,格式不允许把整个图片放在上面。因此,平台的基本算法就是把平台认为的大图片中重要信息截图放在有限的格式里面。

0b8228f2594f21a72307926a0d7ce011.png

如上图所示的两张图片,twitter的算法决定截取同样的部分。很多人开始做这样的实验——把不同大图片放进twitter来看它提取哪一部分的信息,这也就是简化后的版。

a2336d62d528162f7899f3f85a0cc545.png

如上图所示,两张图片几乎完全一样,只是把上下的顺序翻转。但是如果将这两图片放进twitter,twitter只会截取白人男性的信息。即便是把美国白人参议员McConnell和美国黑人总统奥巴马放在一起,twitter也只会截取白人参议员的图片。

d9279ca1c0ef490daa4bcc28dc14b36d.png

除了肤色以外,twitter在对于性别上的处理同样充满了不公平性,如在男性和女性的信息取舍中偏好男性。

人们因此分析道,在twitter数据的搜集过程中可能会存在人们将个人的一些错误观念带入到算法之中,因此也就产生了算法的不公平性。我们需要试着去纠正算法的不公平性。

针对人群中不同群组,人们应该保证决策过程中的关键统计数据在不同群组之间是一致的。比如说:

(1)Acceptance rates(Demographic parity)

在大学录取或贷款发放上,对不同种族人群的接受率应该是保持一致的。

(2)False-positive (or negative) rates(Equalized opportunity/odds)

我们在决策的过程之中,可能无法避免犯一些错,但是不应该在某些群组中犯错更多。

(3)Calibration

针对这些不同的定义,我们从算法公平性的角度出发来同时实现这些公平性的条件是不可能的。今天要讲的工作与这些的大概方向一致,但却是现在一个主要潮流的缺陷。如今很多做算法公平性的工作存在的缺陷是他们一般会用一个比较被动的态度看待数据产生的态度,即根本不会想这些数据的来源就直接训练。但是我们要思考的是在公平性问题存在的情况下,算法和社会是处于一个动态的过程之中。

3d94431e9ab4c32229923187a416a264.png

决策往往会影响群组的状态,在这个过程之中又会影响下一阶段收集的数据。所以算法在应用的情况中往往不会是被动的情况。常常是我们用了算法去做很多的决定,影响了一个群组的状态和长期的分布,算法在将来也会看到不同的数据。因此,我们本次探讨的就是如何在动态做决定的过程中去思考算法的公平性。

Sequential Decision Processes

outside_default.png

Sequential Decision Processes in Social Dynamics

社会动态过程中的顺序决策过程,即我们把时间的因素也考虑进社会的方方面面中。其实这个例子非常多,比如说每个月还信用卡、房贷等等。这些社会现象与时间都是息息相关的,更抽象的话我们可以考虑银行做决策,多是个体与银行之间的互动。个体会有表征,如信用分数。

ebc95a21a71bc272f79775d851dcb906.png

如上图所示,假定t0时刻信用较高,银行就有很大概率批准用户的贷款。而如果后续没有按时还款,那么信用分数就会降低,feature也会随之改变。假定在下一个时间段,用户又想申请贷款,银行就会拒绝用户。这也同时会刺激用户尽快提高自己的信用分数,说明了实际生活中的feature和decision是一个互相影响的过程,而不是静态的过程。

791d578f144a8f8a30855b668d0ff931.png

算法公平性以性别、种族这些特征来维持,每一个个体都属于一个特定的族群。但是如一个人是否有能力偿还贷款这些点是无法观察到的,一般可以从侧面去观察到,如信用分数。

银行也是以此作决策的,我们也希望在这个决策过程中可以保证算法的公平性,而不是受到种族歧视等不公平的影响。

Reinforcement Learning & Social Dynamics

目前我们该如何研究动态社会的不公平性的问题呢?有一个比较好的方法就是强化学习。

outside_default.png

RL & Social Dynamics

88b01b4453dc614ac721f15acf0d1504.png

基本上每个个体Agent可以反复的和环境做互动。在银行场景之中,每个个体在t时刻有状态来做出决策At。在此之后,用户会因为决策得到一个反馈或是奖励reward,Rt。根据实际情况,reward有正有负。同时,存在状态转移可以决定下一个时间段的Agent处于什么状态。刚刚bi'ru提到的,银行做出决策后,用户的信用分数又会有变化,这就是强化学习的大致内容。

c2ff242aaa5d4443e42651d02ebddfc6.png

我们考虑的是一个周期性的强化学习——Episodic RL。这里的强化学习并不是处在一个无限长的时间,而是一段一段的周期性时间。每个周期是有有限的时间,在每个周期结束之后也是一个重新的开始。这其实也很常见,比如信用卡在一些特定季节会有奖励,过了时间也就没有了。但是可能明年的这一季节还会有类似活动,我们也是因此考虑用周期性的强化学习来学习这种现象。

因为季节性在动态社会中是一个很常见的现象,周期性强化学习也有很多成熟的技术可以应用。因此,这在理论上会是一个很好的开始点。

Formulation

outside_default.png

Notation

正如我们刚刚提到,会有一些符号可以作为标签、特征来输入到模型之中。大致符号如下所示:

716087828e54ba767ca874919657b0ee.png

outside_default.png

Sequential Decision Processes

正如我们刚刚提到的,如果我们将x,y,pair表示为一个状态,我们用强化学习的术语就可以刻画社会动态的问题。

7f1bfeb0133de24599f3fd7013ea1f01.png

比如我们随机抽取一个人,他可能是来自group α的。比如α是男性,那么我们随机从人群中抽取到男性。根据他是男性,会产生一个随机过程。根据这个状态,也会有一个政策来帮其做决定,并得到相应的reward。

根据现实中的状态和decision,我们可以根据一个特定的状态转移矩阵去下一个状态。其实这里的符号并不是很严格,我们都知道强化学习中有状态转移矩阵,不同的组有but的状态转移矩阵。抽取一个人,若是属于不同组就会具有不同的状态转移矩阵。并且,银行也可以针对不同的组制定不同的政策,这样也会有其独有的随机过程。如果再抽一个别的组的人,他也会有其独特的随机过程。

因此,这里需要强调的是无论我们随机抽取的个体属于哪个组,他都有其独有的随机过程。之后,我们考虑到周期性的强化学习。

979b1d6793c11b9f216c505ff47e2d2a.png

我们考虑非常多的周期,每个周期有有限的步骤,希望观察到越来越多的周期来帮助我们制定越来越完善的政策。

outside_default.png

Ideal Optimization

我们想要优化的其实是关于每个随意抽取的个体得到reward的期望值,希望能够获得更多的丰厚回报。这个又是怎么定义的呢?

8eb611d85d325d24864ef03cd7b06e72.png

就像我们刚刚所示,简单来讲只会考虑两个group,α和β。随机抽取的这个人是组的概率为pα,是组的概率为pβ。一旦确定了来自α组,其会自行产生一个随机过程。之后,我们就可以求出在上式第h步期望得到的回报,这也是常用的强化学习符号。

对于一个Agent,其目的是在一个周期之内得到尽可能多的回报。在这个时候,我们希望其能在每一步都可以满足算法公平性的约束,这也是我们今天的主题。不过这里和传统受约束的强化学习是不一样的,这里要求的是逐步保证算法公平性。

回顾之前所说,随机抽取一个个体可能来自β组。一旦确定了来源组之后,会各自有一个自己的随机过程,根据其转移矩阵来制定各自的政策。这一算法公平性的约束到底是什么呢?

0e971ba759fdc5c6e0a07d1708f2914f.png

outside_default.png

Demographic parity

我们希望其在第h步被银行批准贷款的概率是相同的,无论是黑人、白人,无论是拿个随机过程。

outside_default.png

Equalized opportunity

在Agent有能力还款的情况下,我们希望批准贷款的概率是相同的。无论个体来自于哪个群组,我们希望在第h步时被银行批准贷款的概率都是相同的。在这里,作决策的时候一般只能观察到x而不能观察到y,这个是无法在做决策当时立刻观察得到的,但是可以在历史数据中得到。

81ec595e774fca5f537deb4a997c7624.png

当我们应用到一个训练好的policy之中,我们希望其能够只用x,y并不是一个policy的input。

Our Method

outside_default.png

Notations for Episodic Setting——For the k-th episode

Policy pair

1f80619ede48d879799889fb63392d5d.png

如果想要保证算法公平性,需要强制让两个组批准的概率相同。如果某个组的信用分数开始就比较低,需要用不同的政策来保证逐步的算法公平性。

Data generation

90ff8fb49c68197fd5da8900bea4beda.png

数据的产生也是同样的道理,如果我们可以保证第k个周期即第h步的时候,我们的policyΠ是group dependent,在α和β都是不一样的。我们在take了input之后,根据其表征就可以做出决策。根据此时的状态和决策,就可根据其group dependent的状态转移矩阵得到下一个状态。

outside_default.png

Data gathering and estimation

因为我们无法直接观察到状态转移矩阵和其他的量,最常用的方法就是用counting method,即用经验分布做一个经验估计。

8f7204e8d928bef6f3634119022f0a91.png

outside_default.png

Practical Optimization

712f8c02d537535b0a478afbca1df257.png

在得到reward后希望可以增加一个其他项——奖励,希望这个奖励可以鼓励去探索之前没有探索的状态和action pair。比如这个过程是不断迭代的,可能一开始收集的数据比较少,policyΠ不是很准确。但是随着收集的数据越来越多,每次都把当前优化得到一个最好的政策用于下一个周期,这样收集的数据越来越多,最后算出来的政策policy可以逼近一个理想化的policy。算法大致如上图所示。

Theoretical Analysis

这里基本都是一些常规定义的量。

f76056d0697e3a3f5b531ace55620583.png

我们希望随着收集的数据越来越多,观测到的周期越来越多,这些量也都会逐步地变成0。我们的文章也会给出具体应该如何选取这些参数来使得这种策略可以收集到更多的数据和观察到更多的周期,并最终达到最优。

outside_default.png

Final Guarantee

995ea30d8b0e94c20afb713d75492d53.png

2b9c3af495957f0f33575a6693e45c4e.png

可以简要的知道Theorem中的值是随着k趋近于无穷而趋近于0的。

Experiments

我们做了一些实验并开发了一些数据工具来处理问题。

111a4088669d7ee31d48e1570a857376.png

可以看到在和无约束的优化比较时可以达到帕累托最优,而且constrained violation可以达到周期的数据也越来越多并逐渐趋于0,而且得到的reward也会逐步稳定,因此可见我们的算法工具还是可行的。

Conclusions & Future Directions

(1)我们用强化学习的工具来研究动态社会中的顺序决策过程

(2)提供了非常强的理论保证

—Tabular cases离散且有限——拓展至无穷空间nontabular

—Episodic settings周期性——infinite horizon无周期的

—Stepwise constraints每一步保证公平性——aggregated notions根据最终累计的   reward多少来给出公平性

(3)我们提供了一些实验并开发了一些工具来帮助实现算法,最终也从实验结果看到确实得到了不错的结果。

往期精彩文章推荐

e0c4c2ca356ff0489c7f98a3026b4a78.jpeg

记得关注我们呀!每天都有新知识!

 国际科技信息中心 

国际科技信息中心是致力于打造数据与知识双轮驱动的认知智能平台,涵盖基础设施、科技文献、科技数据、科技情报、高端智库和智能服务等体系。

SCITIC论坛由国际科技信息中心倾力打造,围绕深圳“20+8”产业集群相关方向与研究领域,邀请国内外青年学者、科研与产业界专家进行技术前沿与产业趋势内容分享,旨在通过前沿领域输出和观点思辨来探讨各领域的未来发展以及互相之间的交叉与融合。

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了900多位海内外讲者,举办了逾400场活动,超400万人次观看

2518726f16918147d9562b7bb4fc05f3.png

我知道你

在看

~

f4dcddaa61d1b99ea89642b72fa77b01.gif

点击 阅读原文 查看回放!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值