数据偏见的背后是什么

3A是个坏同志

已于 2022-05-14 02:36:31 修改

阅读量1.4k

点赞数 4

文章标签：算法大数据伦理

于 2020-06-19 22:26:51 首次发布

本文链接：https://blog.csdn.net/shuangguo121/article/details/106864714

版权

有人看了我之前写的那篇《让深度学习歇一会》，过来跟我说，我可以再写一篇《大数据带来的歧视》：基于大数据的业务越来越多，我们所遭受的歧视也越来越多，比如今天发现某银行对大专生的贷款利率是大学生的利率的1.5倍…………

数据偏见其实是早就被谈烂的话题了，有一本书叫《算法霸权》，很多人应该都看过。这本书讲的就是数据偏见。我觉得这本书的观点有可取的地方，但是很少。一方面它只有几个立论，只是在用不同的论据、换不同的章节名翻来覆去来回说。另外就是它对“偏见”的归因有着一些问题，也是我今天想说的。

为什么会有偏见？举最开始银行的例子来说，首先，银行不是机器开的，允许对不同人群设置不同利率本身就是这个机构设置的一个政策。决策者是人，而非机器。既然政策上允许，说明“歧视”早就存在了，算法只是负责找出需要“歧视”的对象而已。为什么银行一定要找一些人来“歧视”呢？因为银行推出金融产品是想要挣更多的钱，而金融产品的超额利润就来自于所冒的风险，想要更好的挣钱，就必然要对风险进行分析，想要对风险进行分析，必然要基于曾经发生过的事，也就是分析数据。从数据中找出想要最大化的利润是如何响应其它随机因素的变化，换句话说，怎样通过其它随机因素更好的解释利润。可以看出，在这个过程中，“机器”和“算法”并不是根本性的，只是分析的一种手段而已。即使没有机器，金融公司也可以人肉进行分析，事实上金融行业一开始就是这样的。你可以说“算法”加速了这个过程，但是它并不是导致偏见产生的原因。

另一个例子是，有人担心泛滥利用算法和数据会导致执法的偏见。比如一旦出了事，警察叔叔会先找那些被算法标记为易犯罪者的人喝茶。但我们仍然要思考根本原因：警方在调查嫌疑人时，很多时候就是基于有罪推定——先圈定重点嫌疑人，再看看是否能找到他们的犯罪证据。无论有没有算法的参与都是如此。如果你注意观察可以知道，治安不好的棚户区、城乡结合部派出所，经常有几个重点关注对象，如果出现了打架斗殴之后人跑了，又没有监控等直接证据，那就第一时间找这些人先问问。这其实和我前面说的一样，是在技术还没有能力参与时，人脑生成的“算法”在告诉我们，如何更快的达到目的——和计算机没有出现时，保险精算师做的事情，本质上是一样的。如果机器能帮助他们更快更好的完成这些事，他们就乐于去使用机器，如果机器的结果是错误的、无法帮助他们，那就没人会使用。归根结底，算法并没有带来什么偏见，只是在我们人类固有的“偏见”上行驶而已。

许多人讨厌“白左”，但是并没有认识到自己讨厌他们的原因。而我是这么想的，“打标签”其实是人类认知世界的基本模式，其基础是基于一堆贝叶斯证据，去寻找对一类事物的“后验最大划分”。比如A街区的犯罪率是平均水平的四倍，你知道了这个信息之后，到了A街区警戒程度自然也会变成原来是四倍。如果这个时候有人跳出来对你说：“人人生而平等！所以A街区的人和我们一样善良，你那么警惕是不对的！”你肯定会感觉他的脑子有问题。因为他妄图用“绝对平等”的口号来抹杀掉一个实际存在的现实因素。

那么把上面的A街区犯罪率换成我们最开始说的大专生贷款，其实是一模一样的问题，而且机器的结果，从数学角度讲比人类更科学、更精确。这个时候，我们不是要闭上眼睛否认掉这个结果，而是应该思考问题究竟出在了哪里。比如我们的数据可能不准确：银行对于不同学历还款能力的分析不是基于足够丰富的采样做出；人们对A街区的看法只是听楼下王大妈一个人说的，没有统计学意义。那么我们需要广泛、完善的统计来解决问题。也又可能这个事情确实存在，那么我们需要思考如何去解决，比如针对不同人群设置不同利率是否合理？是什么原因导致大专生偿还能力比本科生更差？是什么导致A街区治安差？如何从社会的角度解决这个问题？提高他们的就业率？让他们拥有家产，有顾虑也有后路？基于这些分析，有针对性的建立社会共识：现在这个情况，不是因为大专生、A街区的居民更坏，更蠢，而是背后有着复杂的原因，我们要群策群力，来解决实际存在的问题。我觉得这才是真正意义上的反歧视，比单纯表面的攻击算法有意义得多。

讨论

Q：

机器和人都存在歧视，但最终我们不能接受被机器歧视。如果你要歧视，你必须给出理由。否则大概就是那种，同样的商品新用户给优惠而给老用户上价格歧视了

机器有一万种理由把老用户标注成被歧视者而你并无半点能力向机器追责。这才是攻击算法的原因。

A：

就算app背后没有算法，只要公司想要，也可以雇佣一些“数据挖掘员”让他们把老用户找出来歧视。归根结底，“要找一些人出来歧视”都是人类做出的决策而已

Q：

如果是人的决策，可以直接对人追责，但如果是机器的决策，这样的歧视会变得相当隐蔽。

只要最终决策者是人，决策内容多半会公开，如果不公开，便有歧视的可能。“学生证半价”“大学生助学贷款优惠”，都是公开的政策

归根结底，我们要的并不是不存在歧视，我们要的只是在被不正确的歧视之后，能够找到一种方法反击。对于机器，不存在这种反击

A：

我觉得“决策者是人决策结果多半会公开”这个假设是不成立的。

之所以现在大数据杀熟大多都在互联网app上，原因是（包含歧视的）服务最终是通过一个包含信息量很小的UI提供给用户的，企业（认为自己）没有必要提供，用户（大多）也不想知道这个服务背后包含的决策过程。那么这种黑箱决策背后可以由任何一种东西做出，并不只局限于算法。

而作为（和民众密切相关的）国家政策来说，不管是决策系统有没有算法的参与，最后必然需要对人们解释这个决策。

所以我认为一个决策是否隐蔽（会被解释）和决策系统里包不包含算法没有关系，只和这个决策的属性有关

Q：

如果你读过关于backdoor learning的相关文章，你会发现，模型的训练者可以故意把某个人编码成坏人。

当机器判断某人是坏人的时候，有可能只是这个人得罪了模型的训练者——按你的论述，此时又存在什么“更深层次的原因”，我们又应该怎样“群策群力，解决实际问题”呢？

或许应该说一个改BUG的原则：当A方法可以触发B漏洞的时候，我们不应该以“禁止大家使用A方法”的方式假装B漏洞可以解决。

群策群力是以后的事情，我们现在要解决的就是这个漏洞本身。

A：

“模型把一个人识别成坏人”不代表他就真是个坏人了——如果人不给算法权力，算法就没有任何权力。“模型把人识别成坏人”，更具体的说法是：警察使用（包含模型的）辅助侦察系统办案，系统建议他把某个人列为重点怀疑对象

这其实和他找老警察咨询，老警察建议他把某个人列为重点怀疑对象没区别，所以这个逻辑一样可以套过来——“有可能是这个人得罪了老警察”，那应该怎么解决老警察这个“漏洞”呢？

实际上，从非技术人员的角度看，如果一个决策系统不准（找算法/老警察问100次，结果都是错的），那它就没用；如果一个决策系统有偏见（找算法/老警察问100次，结果都是黑人），那它不好。这只和结果有关，和它到底是算法还是老警察没啥关系

AI安全的问题只是包含在伦理里的一部分，展开来说，如果系统有技术上的漏洞，当然要修复，但是系统没有技术上的漏洞，这系统就能随便歧视别人了？前后倒换一下我觉得也一样：如果限制系统的权力，就算系统里有漏洞，它的危害也是有限的。限制它的权力才是对于解决伦理问题最大的条件——如果某个组织决定必须找一些人出来歧视，算法再完美，最终还是有一些人要选出来被歧视

所以对于你说的识别坏人的问题，根本性解决方法就是：在没有证据的情况下，不能采取强制措施，这样就算他被“怀疑”对他也没有造成伤害。没人能保证一个复杂的系统不存在被攻击的可能（老警察不准备报复任何人），但只要限制它的行为，系统即使有漏洞（老警察准备报复别人），它的伤害也是有限的。在这基础上，才是要解决安全的问题