【Pytorch with fastai】第 3 章 :数据伦理

        🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎

📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃

🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝​

📣系列专栏 - 机器学习【ML】 自然语言处理【NLP】  深度学习【DL】

 🖍foreword

✔说明⇢本人讲解主要包括Python、机器学习(ML)、深度学习(DL)、自然语言处理(NLP)等内容。

如果你对这个系列感兴趣的话,可以关注订阅哟👋

文章目录

数据伦理的关键示例

错误和追索:用于医疗保健福利的错误算法

反馈循环:YouTube 的推荐系统

偏见:拉坦亚·斯威尼教授“被捕”

为什么这很重要?

将机器学习与产品设计相结合

数据伦理主题

追索权和问责制

反馈回路

偏见

历史偏差

测量偏差

聚合偏差

代表性偏差

解决不同类型的偏见

虚假信息

识别和解决道德问题

分析您正在进行的项目

实施过程

道德镜片

多样性的力量

公平、问责和透明

政策的作用

监管的有效性

权利和政策

汽车:历史先例

结论


正如我们在第1章和第2章中所讨论的,有时机器学习模型可能会出错。他们可能有错误。他们可以看到他们以前从未见过的数据,并以我们意想不到的方式行事。或者它们可以完全按照设计工作,但用于我们更希望它们从未使用过的东西。

因为深度学习是一个如此强大的工具,可以用于很多事情,所以考虑我们选择的后果变得尤为重要。伦理学的哲学研究是 对与错的研究,包括我们如何定义这些术语,识别对与错的行为,以及理解行为与后果之间的联系。数据伦理领域一直存在 长期以来,许多学者都在关注这一领域。它被用于帮助定义许多司法管辖区的政策;大小公司都在使用它来考虑如何最好地确保产品开发产生良好的社会成果;它被研究人员使用,他们希望确保他们所做的工作被用于好,而不是坏。

因此,作为一名深度学习从业者,您可能会在某个时候陷入需要您考虑数据伦理的境地。那么什么是数据伦理?这是道德的一个子领域,所以让我们从那里开始。

在回答 “什么是道德?”这个问题时 Markkula 应用伦理中心表示,该术语指的是以下内容:

  • 规定人类应该做什么的有根据的是非标准

  • 道德标准的研究与发展

没有正确答案的清单。没有注意事项清单。伦理是复杂的,并且取决于上下文。它涉及许多利益相关者的观点。道德是你必须发展和练习的肌肉。在本章中,我们的目标是提供一些路标来帮助您完成这一旅程。

发现道德问题最好作为协作团队的一部分。这是您真正融合不同观点的唯一方法。不同的人的背景将帮助他们看到对你来说可能并不明显的事情。与团队合作有助于许多“肌肉锻炼”活动,包括这项活动。

本章当然不是本书中我们讨论数据伦理的唯一部分,但有一个地方可以让我们暂时关注它是件好事。为了获得方向感,看几个例子可能是最容易的。因此,我们挑选了三个我们认为有效地说明了一些关键主题的内容。

数据伦理的关键示例

我们将从三个具体的例子开始,说明三个常见的道德问题在技​​术领域(我们将在本章后面更深入地研究这些问题):

追索程序

阿肯色州错误的医疗保健算法使患者陷入困境。

反馈回路

YouTube 的推荐系统帮助掀起了一场阴谋论热潮。

偏见

当在 Google 上搜索一个传统的非裔美国人名字时,它会显示用于犯罪背景调查的广告。

事实上,对于我们在本章中介绍的每一个概念,我们都将提供至少一个具体的例子。对于每一个,想想在这种情况下你可以做些什么,以及你完成这些可能会遇到什么样的障碍。你会怎么对付他们?你会注意什么?

错误和追索:用于医疗保健福利的错误算法

The Verge 调查了美国一半以上州使用的软件 确定人们接受多少医疗保健,并将其发现记录在 “当算法削减您的医疗保健时会发生什么”一文中。在阿肯色州实施该算法后,数百人(许多患有严重残疾)的医疗保健大幅削减。

例如,患有脑瘫的女性 Tammy Dobbs 需要助手帮助她起床、上厕所、取食物等等,她每周的帮助时间突然减少了 20 小时。她无法解释为什么她的医疗保健被削减了。最终,一个法庭案件显示该算法的软件实现存在错误,对糖尿病或脑瘫患者产生了负面影响。然而,多布斯和许多其他依赖这些医疗保健福利的人生活在担心他们的福利会再次被突然而莫名其妙地削减。

反馈循环:YouTube 的推荐系统

当您的模型控制下一轮时,可能会出现反馈循环 你得到的数据。快速返回的数据会因软件本身而存在缺陷。

例如,YouTube 拥有 19 亿用户,他们每天观看超过 10 亿小时的 YouTube 视频。它的推荐算法(由谷歌构建)旨在优化观看时间,负责大约 70% 的观看内容。但是有一个问题:它导致了失控的反馈循环,导致纽约时报刊登了标题“YouTube 引发了一场阴谋论热潮。可以遏制吗?” 在 2019 年 2 月。表面上,推荐系统是在预测人们会喜欢什么内容,但它们在确定人们甚至会看到什么内容方面也有很大的权力。

偏见:拉坦亚·斯威尼教授“被捕”

Latanya Sweeney 博士是哈佛大学教授和大学数据主管 隐私实验室。在“在线广告投放中的歧视”一文(见图 3-1)中,她描述了她发现在谷歌上搜索她的名字会导致广告显示“Latanya Sweeney,被捕?” 尽管她是唯一已知的 Latanya Sweeney 并且从未被捕过。然而,当她在谷歌上搜索其他名字时,例如 “Kirsten Lindquist”,她得到了更多中性的广告,尽管 Kirsten Lindquist 已经被逮捕了 3 次。

图 3-1。谷歌搜索显示有关 Latanya Sweeney 教授(不存在的)逮捕记录的广告

作为一名计算机科学家,她系统地研究了这一点,并查看了 2,000 多个名字。她发现了一个明确的模式:历史上黑人名字收到的广告暗示此人有犯罪记录,而传统上白人名字的广告更中性。

这是偏见的一个例子。它可以对人们的生活产生重大影响——例如,如果求职者被谷歌搜索,他们可能看起来有犯罪记录,而实际上他们没有。

为什么这很重要?

考虑这些问题的一个非常自然的反应是:“那又怎样? 跟我有什么关系?我是数据科学家,而不是政治家。我不是我公司中决定我们做什么的高级管理人员之一。我只是想建立我能做的最具预测性的模型。”

这些都是非常合理的问题。但我们会试图让你相信答案是每个训练模型的人 绝对需要考虑他们的模型将如何被使用,并考虑如何最好地确保它们被尽可能积极地使用。有些事情你可以做。如果你不这样做,事情可能会变得非常糟糕。

一个特别可怕的例子,说明当技术人员 不惜一切代价关注技术是IBM和纳粹德国的故事。2001 年,一位瑞士法官裁定,“推断 IBM 的技术援助促进了纳粹在实施其危害人类罪中的任务,这些行为还涉及 IBM 机器的会计和分类,并在集中营中使用,这并非不合理。 。”

你看,IBM 为纳粹提供了大规模追踪犹太人和其他群体灭绝情况所需的数据表格产品。这是由公司高层推动的,向希特勒和他的领导团队进行营销。公司总裁托马斯·沃森亲自批准了 1939 年发布的特殊 IBM 字母排序机器,以帮助组织驱逐波兰犹太人。图 3-2为阿道夫·希特勒 (最左边)在 1937 年希特勒授予沃森特别的“为帝国服务”奖章之前不久,与 IBM 首席执行官 Tom Watson Sr.(左二)会面。

图 3-2。IBM CEO Tom Watson Sr. 与阿道夫·希特勒会面

但这不是一个孤立的事件——该组织的参与范围很广。IBM 及其子公司在集中营现场提供定期培训和维护:打印卡片、配置机器,并在它们经常坏掉时进行维修。IBM 在其穿孔卡系统上设置了每个人被杀的方式、他们被分配到哪个组以及通过庞大的大屠杀系统追踪他们所需的后勤信息的分类(见图 3-3)。IBM 对集中营中犹太人的代码是 8:大约 6,000,000 人被杀。它的罗马人代码是 12(他们被纳粹标记为“反社会者”,在Zigeunerlager中有超过 300,000 人被杀,或“吉普赛人营地”)。一般处决被编码为 4,毒气室中的死亡被编码为 6。

图 3-3。IBM 在集中营中使用的打孔卡

当然,参与的项目经理和工程技术人员也只是过着平凡的生活。照顾他们的家人,星期天去教堂,尽他们所能做他们的工作。遵命。营销人员只是尽其所能来实现他们的业务发展目标。作为埃德温·布莱克,IBM 和大屠杀(对话出版社)的作者观察到:“对于盲目的技术官僚来说,手段比目的更重要。对犹太人民的毁灭变得更加不重要,因为 IBM 技术成就的令人振奋的本质只有在面包生产线遍布全球的时候获得的巨大利润才更加突出。”

退一步想一想:如果你发现自己成为了一个最终伤害社会的系统的一部分,你会有什么感受?你愿意找出答案吗?您如何帮助确保不会发生这种情况?我们已经在这里描述了最极端的情况,但是今天观察到与人工智能和机器学习相关的许多负面社会后果,我们将在本章中描述其中的一些。

这也不仅仅是一种道德负担。有时,技术人员会直接为他们的行为付出代价。例如,第一个因大众汽车丑闻而入狱的人,其中这家汽车公司被发现在柴油排放测试中作弊,不是监督该项目的经理,也不是公司的高管。是其中一位工程师 James Liang,他刚刚做了他想做的事 被告知。

当然,这并不全是坏事——如果你参与的一个项目甚至对一个人产生了巨大的积极影响,这会让你感觉非常棒!

好的,所以希望我们已经说服你,你应该关心。但 你该怎么办?作为数据科学家,我们自然倾向于通过优化某些指标或其他指标来优化我们的模型。但优化该指标可能不会带来更好的结果。即使它确实有助于创造更好的结果,它几乎肯定不会是唯一重要的事情。考虑在研究人员或从业者开发模型或算法之间发生的一系列步骤,以及该工作用于做出决定的时间点。如果我们希望获得我们想要的结果,则需要将整个管道视为一个整体。

通常,从一端到另一端有一条很长的链条。如果您是一名研究人员,甚至可能不知道您的研究是否会被用于任何事情,或者您是否参与了数据收集,这在管道中甚至更早,则尤其如此。但是,没有人比您更适合将您工作的能力、限制和细节告知该链条中的每个人。尽管没有“灵丹妙药”可以确保您的工作以正确的方式使用,但通过参与流程并提出正确的问题,您至少可以确保正在考虑正确的问题。

有时,对被要求做某项工作的正确反应就是说“不”。然而,我们经常听到的回应是,“如果我不这样做,其他人就会这样做。” 但是请考虑一下:如果您被选中担任这项工作,那么您就是他们发现的最佳人选——因此,如果您不这样做,那么最佳人选就不会从事该项目。如果他们问的前五个人都说不,那就更好了!

将机器学习与产品设计相结合

大概,你做这项工作的原因是你 希望它会被用于某事。否则,你只是在浪费时间。因此,让我们从假设您的工作将在某个地方结束的假设开始。现在,当您收集数据和开发模型时,您正在做出很多决定。您会将数据存储在什么级别的聚合?你应该使用什么损失函数?您应该使用哪些验证集和训练集?您应该关注实现的简单性、推理的速度还是模型的准确性?您的模型将如何处理域外数据项?它可以进行微调,还是必须随着时间的推移从头开始重新训练?

这些不仅仅是算法问题。它们是数据产品设计问题。但是产品经理、高管、法官、记者、医生——无论他们最终开发和使用了你的模型所在的系统——都不会很好地理解你做出的决定,更不用说改变它们了。

例如,两项研究发现亚马逊的面部识别软件产生 不准确和 种族偏见的结果。亚马逊声称研究人员应该更改默认参数,但没有解释这将如何改变有偏见的结果。此外,事实证明,亚马逊也没有指示 使用其软件的警察部门这样做。据推测,开发这些算法的研究人员与编写提供给警方的指南的亚马逊文档人员之间存在很大的距离。

缺乏紧密的整合给整个社会、警察和亚马逊带来了严重的问题。事实证明,它的系统错误地将 28 名国会议员与犯罪照片匹配!(与犯罪面部照片错误匹配的国会议员不成比例地是有色人种,如图 3-4 所示。)

图 3-4。国会议员与亚马逊软件的犯罪照片相匹配

数据科学家需要成为跨学科团队的一员。研究人员需要与最终会使用他们研究的人密切合作。更好的是,领域专家自己可以学到足够的知识,能够自己训练和调试一些模型——希望你们中的一些人现在正在阅读这本书!

现代工作场所是一个非常专业的地方。每个人都倾向于有明确的工作来执行。尤其是在大公司中,很难知道所有的拼图。有时,如果公司知道员工不会喜欢答案,他们甚至会故意掩盖正在处理的整体项目目标。这有时是通过尽可能多地划分碎片来完成的。

换句话说,我们并不是说这一切都很容易。这个很难(硬。这真的很难。我们都必须尽力而为。我们经常看到,那些参与到这些项目的更高层次环境中,并试图发展跨学科能力和团队的人,成为他们组织中最重要和最有回报的成员。这种工作往往会受到高级管理人员的高度赞赏,即使有时中层管理人员认为它相当不舒服。

数据伦理主题

数据伦理是一个很大的领域,我们不可能涵盖所有内容。相反,我们将选择一些我们认为特别相关的主题:

  • 追索权和问责制的必要性

  • 反馈回路

  • 偏见

  • 虚假信息

让我们依次看一下。

追索权和问责制

在一个复杂的系统中,没有人很容易感到有责任感 为结果。虽然这是可以理解的,但它不会带来好的结果。在阿肯色州的早期例子中医疗保健系统中的一个错误导致脑瘫患者无法获得所需的护理,该算法的创建者指责政府官员,而政府官员则指责那些实施该软件的人。纽约大学教授Danah Boyd描述了这种现象:“官僚主义经常被用来转移或逃避责任……今天的算法系统正在扩展官僚主义。”

追索权如此必要的另一个原因是数据通常 包含错误。审计和纠错机制至关重要。加州执法人员维护的一个疑似帮派成员数据库被发现错误百出,其中42名婴儿不到1岁就被添加到数据库中(其中28名被标记为“承认为帮派”)成员”)。在这种情况下,没有适当的流程来纠正错误或在添加人员后将其删除。另一个例子是美国的信用报告系统:美国联邦贸易委员会 (FTC) 在 2012 年对信用报告进行的一项大规模研究发现,26% 的消费者在他们的文件中至少有一个错误,而 5% 的错误可能是毁灭性的。

然而,纠正此类错误的过程非常缓慢且不透明。当公共电台记者 Bobby Allyn发现他被错误地列为持有枪支罪名时,他“打了十几个电话,一个县法院书记员的手艺,六个星期才解决了这个问题。那是在我作为记者联系公司的通讯部门之后。”

作为机器学习从业者,我们并不总是认为了解我们的算法最终如何在实践中实施是我们的责任。但我们需要。

反馈回路

我们在第 1 章中解释了算法如何 可以与其环境交互以创建反馈循环,做出预测以加强在现实世界中采取的行动,从而使预测在同一方向上更加明显。作为一个例子,让我们再次考虑 YouTube 的推荐系统。几年前,谷歌团队谈到了他们是如何引入强化学习的(与深度学习密切相关,但您的损失函数代表一个动作发生后可能很长一段时间内的结果)以改进 YouTube 的推荐系统。他们描述了他们如何使用一种算法来提出建议,从而优化观看时间。

然而,人们往往会被有争议的内容所吸引。这意味着关于阴谋论之类的视频开始越来越多地被推荐系统推荐。而且,原来对阴谋论感兴趣的人,也是看很多网络视频的人!因此,他们开始越来越喜欢 YouTube。越来越多的阴谋论者在 YouTube 上观看视频,导致算法推荐越来越多的阴谋论和其他极端主义内容,这导致更多极端主义分子在 YouTube 上观看视频,更多观看 YouTube 的人发展极端主义观点,导致算法推荐更极端的内容。系统逐渐失控。

而这种现象并不包含在这种特定类型的内容中。2019 年 6 月,《纽约时报》在 YouTube 的推荐系统上发表了一篇题为 《在 YouTube 的数字游乐场,恋童癖者敞开大门》的文章。这篇文章从这个令人毛骨悚然的故事开始:

当她 10 岁的女儿和一位朋友上传了一段他们在后院游泳池玩耍的视频时,Christiane C. 没有想到任何事情……几天后……该视频获得了数千次观看。没过多久,它就上升到了 40 万……“我又看了一遍视频,被观看次数吓到了,”克里斯蒂安说。她有理由这样做。一组研究人员发现,YouTube 的自动推荐系统已经开始向观看其他青春期前、部分穿着的儿童视频的用户展示该视频。

就其本身而言,每个视频都可能是完全无辜的,例如,由孩子制作的家庭电影。任何暴露的框架都是转瞬即逝的,并且显得很偶然。但是,将它们组合在一起,它们的共同特征就变得明确无误。

YouTube 的推荐算法已经开始为恋童癖者挑选播放列表,挑选出恰好包含青春期前、衣着不全的儿童的无辜家庭视频。

谷歌没有人计划创建一个系统,将家庭视频变成恋童癖者的色情片。所以发生了什么事?

这里的部分问题是指标在推动 财务上重要的系统。如您所见,当一个算法有一个指标需要优化时,它会尽其所能来优化这个数字。这往往会导致各种边缘情况,与系统交互的人将搜索、查找和利用这些边缘情况和反馈循环以获得优势。

有迹象表明,这正是 2018年 YouTube 推荐系统所发生的事情。《卫报》刊登了一篇名为 “一位前 YouTube 内部人员如何调查其秘密算法”的文章,讲述了前 YouTube 工程师 Guillaume Chaslot,他创建了一个网站 跟踪这些问题。在罗伯特·穆勒 (Robert Mueller) 的“关于俄罗斯干涉 2016 年总统选举的调查报告”发布之后,查斯洛特在图 3-5中发布了图表 。

图 3-5。穆勒报告的报道

今日俄罗斯对穆勒报告的报道是极端的 有多少频道推荐它的异常值。这表明俄罗斯国有媒体《今日俄罗斯》在玩 YouTube 推荐算法方面取得了成功的可能性。不幸的是,像这样的系统缺乏透明度使得我们很难发现我们正在讨论的各种问题。

我们对本书的一位审稿人 Aurélien Géron 领导了 YouTube 的视频分类团队从 2013 年到 2016 年(远在此处讨论的事件之前)。他指出,问题不仅仅是涉及人类的反馈循环。也可以有没有人的反馈循环!他告诉我们一个来自 YouTube 的例子:

对视频的主题进行分类的一个重要信号是它来自哪个频道。例如,上传到烹饪频道的视频很可能是烹饪视频。但是我们怎么知道一个频道的主题是什么?好吧……部分是通过查看其中包含的视频主题!你看到循环了吗?例如,许多视频都有说明,说明使用什么相机拍摄视频。因此,其中一些视频可能会被归类为有关“摄影”的视频。如果某个频道有这样一个错误分类的视频,它可能会被归类为“摄影”频道,这使得该频道上的未来视频更有可能被错误归类为“摄影”。这甚至可能导致类似病毒的分类失控!打破这种反馈循环的一种方法是对带有和不带有通道信号的视频进行分类。那么在对通道进行分类时,只能使用没有通道信号得到的类。这样,反馈回路就被打破了。

有一些人和组织试图解决这些问题的积极例子。Evan Estola,首席机器学习工程师 聚会,讨论了这个例子男性对科技聚会的兴趣高于女性。因此,将性别考虑在内可能会导致 Meetup 的算法向女性推荐更少的技术聚会,结果,更少的女性会发现并参加技术聚会,这可能导致算法向女性推荐更少的技术聚会,等等在一个自我强化的反馈循环中。因此,Evan 和他的团队为他们的推荐算法做出了不创建这样一个反馈循环的道德决定,明确地不在他们模型的那部分使用性别。令人鼓舞的是,一家公司不仅不假思索地优化了一个指标,而且考虑了它的影响。根据 Evan 的说法,“您需要决定在您的算法中不使用哪个功能……最优化的算法可能不是投入生产的最佳算法。”

虽然 Meetup 选择避免这样的结果,但 Facebook 提供了一个 允许失控的反馈循环疯狂运行的示例。与 YouTube 一样,它倾向于通过向对一种阴谋论感兴趣的用户介绍更多内容来激化他们。正如虚假信息泛滥的研究员 Renee DiResta所写

一旦人们加入一个有阴谋论的 [Facebook] 组,他们就会通过算法被路由到大量其他人。加入一个反疫苗小组,您的建议将包括反转基因、化学追踪观察、flat Earther(是的,真的)和“自然治愈癌症”小组。推荐引擎不是将用户从兔子洞中拉出来,而是将他们推得更远。

记住这种行为是可能发生的,并且当你在自己的项目中看到它的第一个迹象时,要么预测一个反馈循环,要么采取积极的行动来打破它,这一点非常重要。要记住的另一件事是偏见,正如我们在前一章中简要讨论的那样,它会以非常麻烦的方式与反馈循环交互。

偏见

在线讨论偏见往往很快就会变得相当混乱。这 “偏见”这个词有很多不同的意思。统计学家经常认为,当数据伦理学家谈论偏见时,他们正在谈论术语偏见的统计定义——但事实并非如此。他们当然不是在谈论作为模型参数的权重和偏差中出现的偏差!

他们谈论的是社会科学概念 偏见。在“理解机器学习的意外后果的框架”中,麻省理工学院的 Harini Suresh 和 John Guttag 描述了机器学习中的六种偏见,总结在 图 3-6中。

图 3-6。机器学习中的偏见可能来自多个来源(由 Harini Suresh 和 John V. Guttag 提供)

我们将讨论其中四种类型的偏见,它们是我们发现对我们自己的工作最有帮助的(有关其他类型的详细信息,请参阅论文)。

历史偏差

历史偏见源于人们有偏见,过程 有偏见,社会也有偏见。Suresh 和 Guttag 说:“历史偏差是数据生成过程第一步的基本结构性问题,即使在完美的采样和特征选择下也可能存在。”

例如,这里有一些美国历史上种族偏见的例子,来自《纽约时报》的文章 芝加哥大学的 Sendhil Mullainathan 的“种族偏见,即使我们有良好的意图” :

  • 当医生看到相同的文件时,他们不太可能向黑人患者推荐心导管术(一种有用的程序)。

  • 在为二手车讨价还价时,黑人的初始价格要高出 700 美元,而得到的让步要小得多。

  • 用黑人名字回应 Craigslist 上的公寓租赁广告比用白人名字得到的回应更少。

  • 全白人陪审团对黑人被告定罪的可能性比白人被告高 16 个百分点,但是当陪审团只有一名黑人成员时,它以相同的比率定罪。

COMPAS 算法,广泛用于美国的量刑和保释决定 美国是一个重要算法的例子,当 ProPublica对其进行测试时,该算法在实践中表现出明显的种族偏见(图 3-7)。

图 3-7。COMPAS 算法的结果

任何涉及人类的数据集都可能存在这种偏见:医学 数据、销售数据、住房数据、政治数据等。因为潜在的偏见是如此普遍,所以数据集中的偏见非常普遍。种族偏见甚至出现在计算机视觉中,如图 3-8所示的 Google Photos 用户在 Twitter 上分享的自动分类照片示例所示。

图 3-8。这些标签之一是非常错误的……

 是的,这显示了您的想法:Google 相册将黑人用户与其朋友的照片分类为“大猩猩”!这一算法失误引起了媒体的广泛关注。“我们对发生这种情况感到震惊和真诚抱歉,”公司发言人说。“显然,自动图像标记还有很多工作要做,我们正在研究如何防止这些类型的错误在未来发生。”

不幸的是,当输入数据出现问题时,很难解决机器学习系统中的问题。正如《卫报》报道的那样,谷歌的第一次尝试并没有激发信心(图 3-9)。

图 3-9。谷歌对该问题的第一反应

 这类问题当然不仅限于谷歌。麻省理工学院的研究人员研究了最流行的在线计算机视觉 API,以了解它们的准确性。但他们不只是计算一个准确度数字——相反,他们查看了四个方面的准确度组,如图 3-10 所示

图 3-10。各种面部识别系统的性别和种族错误率

 例如,IBM 的系统对深色女性的错误率为 34.7%,而对浅色男性的错误率为 0.3%——错误率超过 100 倍!有些人对这些实验的反应是错误的,他们声称差异仅仅是因为较深的皮肤更难被计算机识别。然而,发生的事情是,在这个结果造成负面宣传之后,所有有问题的公司都显着改进了他们的深色皮肤模型,以至于一年后,它们几乎和浅色皮肤一样好。所以这表明开发人员未能利用数据集 包含足够的深色面孔,或者用深色面孔测试他们的产品。

麻省理工学院的一位研究人员乔伊·布拉姆维尼警告说:“我们已经进入 自动化时代过度自信但准备不足。如果我们不能制造符合道德和包容性的人工智能,我们就有可能在机器中立的幌子下失去在公民权利和性别平等方面取得的成果。”

部分问题似乎是构成的系统性失衡 用于训练模型的流行数据集。Shreya Shankar 等人的论文 “没有代表就没有分类:评估发展中国家开放数据集中的地理多样性问题”的摘要。声明,“我们分析了两个大型的、公开可用的图像数据集来评估地理多样性,并发现这些数据集似乎表现出可观察到的以美国为中心和以欧洲为中心的代表性偏差。此外,我们分析了在这些数据集上训练的分类器,以评估这些训练分布的影响,并发现不同地区图像的相对性能存在很大差异。” 图 3-11显示了论文中的一张图表,显示了当时(并且仍然是,正如本书正在编写的那样)训练模型的两个最重要的图像数据集的地理构成。

图 3-11。流行训练集中的图像来源

绝大多数图片来自美国和其他国家 西方国家,导致在 ImageNet 上训练的模型在来自其他国家和文化的场景中表现更差。例如,研究发现,此类模型在识别来自低收入国家的家居用品(如肥皂、香料、沙发或床)方面表现较差。图 3-12显示了论文“Does Object Recognition Work for Everyone?”中的一张图片。特伦斯·德弗里斯等人。Facebook AI Research 的研究人员说明了这一点。

图 3-12。对象检测在行动

在这个例子中,我们可以看到收入较低的肥皂示例距离准确还有很长的路要走,每个商业图像识别服务都将“食物”预测为最有可能的答案!

此外,正如我们稍后将讨论的那样,绝大多数人工智能研究人员和开发人员都是年轻的白人男性。我们看到的大多数项目都使用直接产品开发组的朋友和家人进行大多数用户测试。鉴于此,我们刚刚讨论的这类问题应该不足为奇。

在用作自然数据的文本中也发现了类似的历史偏差。 语言处理模型。这以多种方式出现在下游机器学习任务中。例如,据 广泛报道,直到去年,谷歌翻译在将土耳其中性代词“o”翻译成英语时表现出系统性的偏见:当应用于通常与男性相关的工作时,它使用“他”,而当应用于通常与女性相关的工作时,则使用“she”(图 3-13)。

图 3-13。文本数据集中的性别偏见

我们在在线广告中也看到了这种偏见。例如,一个 Muhammad Ali 等人于 2019 年进行的研究发现即使投放广告的人没有故意歧视,Facebook 也会根据种族和性别向非常不同的受众展示广告。具有相同文字但描绘白人或黑人家庭的住房广告被展示给不同种族的观众。

测量偏差

美国经济评论的“机器学习是否使道德风险和错误自动化”中,Sendhil Mullainathan 和 Ziad Obermeyer 研究了一个试图回答这个问题的模型: 使用历史电子健康记录 (EHR) 数据,哪些因素最能预测中风?这些是该模型的主要预测指标:

  • 先前的中风

  • 心血管疾病

  • 误伤

  • 良性乳房肿块

  • 结肠镜检查

  • 鼻窦炎

但是,只有前两名与中风有关!根据我们迄今为止的研究,您可能会猜到原因。我们还没有真正测量过中风,当大脑的某个区域由于血液供应中断而缺氧时就会发生这种情况。我们测量的是谁有症状,去看医生,接受了适当的测试,接受了中风的诊断。实际上,中风并不是与这个完整列表相关的唯一因素——它还与去看医生的那种人相关(这受哪些人有机会获得医疗保健,能负担得起他们的共同支付,没有经历种族或基于性别的医疗歧视,等等)!如果您有可能因意外受伤而去看医生,当您中风时,您也可能会去看医生。

这是测量偏差的一个例子。当我们的模型出错时,就会发生这种情况,因为我们测量了错误的东西,或者以错误的方式测量它,或者不恰当地将该测量纳入模型中。

聚合偏差

当模型不以某种方式聚合数据时,就会出现聚合偏差 包含所有适当的因素,或者当模型不包括必要的交互项、非线性等时。这尤其发生在医疗环境中。例如, 糖尿病的治疗方法通常基于简单的单变量统计数据和涉及少数异质人群的研究。结果分析通常以不考虑不同种族或性别的方式进行。然而,事实证明,糖尿病患者在不同种族之间有不同的并发症,并且 HbA1c 水平(广泛用于诊断和监测糖尿病) 在不同种族和性别之间存在复杂的差异。这可能导致人们被误诊或错误治疗,因为医疗决策是基于一个不包括这些重要变量和相互作用的模型。

代表性偏差

Maria De-Arteaga 等人的论文“Bias in Bios: A Case Study of Semantic Representation Bias in a High-Stakes Setting”的论文摘要。注意到职业中存在性别失衡(例如,女性 更有可能是护士,而男性更有可能是牧师),并表示“性别之间真阳性率的差异与现有的职业性别失衡有关,这可能会加剧这些失衡。”

换句话说,研究人员注意到,预测职业的模型不仅反映了潜在人群中实际的性别失衡,而且放大了它!这种类型的表示偏差很常见,特别是对于简单的模型。当存在清晰、易于查看的潜在关系时,简单的模型通常会假设这种关系始终成立。正如 论文中的图 3-14所示,对于女性比例较高的职业,该模型倾向于高估该职业的流行率。

图 3-14。预测职业中的模型错误与所述职业中女性的百分比相比较

例如,在训练数据集中,14.6% 的外科医生是女性,但在模型预测中,只有 11.6% 的真阳性是女性。因此,该模型放大了训练集中存在的偏差。

既然我们已经看到存在这些偏见,我们可以做些什么来减轻它们呢?

解决不同类型的偏见

不同类型的偏见需要不同的缓解方法。 虽然收集更多样化的数据集可以解决表示偏差,但这无助于历史偏差或测量偏差。所有数据集都包含偏差。不存在完全去偏的数据集。该领域的许多研究人员一直在讨论一组提案,以便更好地记录决策、上下文和关于特定数据集的创建方式和原因、适用于哪些场景以及限制是什么的细节。这样,那些使用特定数据集的人就不会因其偏见和限制而措手不及。

我们经常听到这样的问题,“人类有偏见,那么算法偏见是否重要?” 这经常出现,一定有一些推理对提出问题的人来说是有道理的,但对我们来说这似乎不是很合乎逻辑!不管这在逻辑上是否合理,重要的是要认识到算法(尤其是机器学习算法!)和人是不同的。考虑关于机器学习算法的以下几点:

机器学习可以创建反馈循环

由于反馈循环,少量的偏差可以迅速增加。

机器学习可以放大偏见

人为偏见会导致大量的机器学习偏见。

算法和人类的使用方式不同

在实践中,人类决策者和算法决策者并未以即插即用的可互换方式使用。这些示例在下一页的列表中给出。

技术就是力量

随之而来的是责任。

正如阿肯色州的医疗保健示例所示,机器学习通常是 在实践中实施不是因为它会带来更好的结果,而是因为它更便宜、更有效。Cathy O'Neill 在她的《数学毁灭武器》一书中描述了一种模式,其中特权者由人处理,而穷人则由算法处理。这只是算法使用方式与人类决策者不同的众多方式之一。其他包括以下内容:

  • 人们更有可能认为算法是客观的或没有错误的(即使他们可以选择人工替代)。

  • 算法更有可能在没有上诉程序的情况下实施。

  • 算法经常被大规模使用。

  • 算法系统很便宜。

即使没有偏见,算法(尤其是深度学习,因为它是一种有效且可扩展的算法)也可能导致负面的社会问题,例如用于虚假信息时。

虚假信息

虚假信息的历史可以追溯到数百甚至什至 几千年来。它不一定是要让人相信一些虚假的东西,而是经常用来播下不和谐和不确定性,让人们放弃追求真理。收到相互冲突的帐户可能会导致人们认为他们永远不知道该信任谁或信任什么。

有些人认为虚假信息主要是关于虚假信息或 假新闻,但实际上,虚假信息通常包含真相的种子,或者断章取义的半真半假。拉迪斯拉夫·比特曼 苏联的一名情报官员,后来叛逃到美国,并在 1970 年代和 1980 年代写了一些关于虚假信息在苏联宣传行动中的作用的书籍。在克格勃和苏联的虚假信息(佩加蒙)中,他写道:“大多数竞选活动都是精心设计的事实、半真半假、夸张和故意谎言的混合体。”

近年来,在美国,这种情况已近在咫尺,联邦调查局详细介绍了与俄罗斯有关的大规模虚假信息宣传活动。 2016 年大选。了解此次活动中使用的虚假信息非常具有教育意义。例如,联邦调查局发现,俄罗斯的虚假宣传活动经常组织两个独立的假“草根”抗议活动,针对一个问题的每一方,并让他们同时抗议!《休斯顿纪事报》报道了这些奇怪的事件之一(图 3-15):

一个自称为“得克萨斯州之心”的组织在社交媒体上组织了它——他们说,这是一场反对得克萨斯州“伊斯兰化”的抗议活动。在特拉维斯街的一侧,我发现了大约 10 名抗议者。在另一边,我发现了大约 50 名反抗议者。但我找不到集会组织者。没有“德克萨斯之心”。我觉得这很奇怪,并在文章中提到:什么样的团体在自己的活动中没有出现?现在我知道为什么了。显然,集会的组织者当时在俄罗斯圣彼得堡。“得克萨斯州之心”是特别检察官罗伯特·穆勒(Robert Mueller)最近对俄罗斯人试图篡改美国总统大选的起诉书中引用的互联网巨魔组织之一。

图 3-15。德克萨斯州之心小组组织的活动

虚假信息通常涉及不真实行为的协调运动。例如,欺诈性帐户可能会试图让很多人看起来都持有某种特定观点。虽然我们大多数人都喜欢认为自己是独立思想的,但实际上,我们进化为受到我们内部群体中其他人的影响,而与我们外部群体中的人相反。在线讨论会影响我们的观点,或改变我们认为可接受的观点的范围。人类是社会性动物,作为社会性动物,我们深受周围人的影响。越来越多的激进化发生在在线环境中;因此影响力来自在线论坛和社交网络的虚拟空间中的人们。

通过自动生成文本的虚假信息尤其重要 问题,由于深度学习提供的能力大大提高。当我们在第 10 章深入研究创建语言模型时,我们将深入讨论这个问题。

一种建议的方法是开发某种形式的数字签名,以 以无缝的方式实施它,并创建我们应该只信任经过验证的内容的规范。艾伦人工智能研究所所长 Oren Etzioni 在一篇题为 “我们将如何防止基于人工智能的伪造?”的文章中提出了这样的建议。:“人工智能有望使高保真伪造变得廉价和自动化,从而给民主、安全和社会带来潜在的灾难性后果。人工智能伪造的幽灵意味着我们需要采取行动,将数字签名作为数字内容认证的一种手段。”

虽然我们不希望讨论深度学习和更普遍的算法带来的所有伦理问题,但希望这个简短的介绍是一个有用的起点,您可以以此为基础。我们现在将继续讨论如何识别道德问题以及如何处理这些问题。

识别和解决道德问题

错误发生。了解他们并与他们打交道,需要 成为包括机器学习(以及许多其他系统)的任何系统设计的一部分。数据伦理中提出的问题通常是复杂的和跨学科的,但我们必须努力解决这些问题。

所以,我们能做些什么?这是一个很大的话题,但这里有一些解决道德问题的步骤:

  • 分析您正在进行的项目。

  • 在贵公司实施流程以发现和解决道德风险。

  • 支持好政策。

  • 增加多样性。

让我们从分析您正在处理的项目开始,逐步完成每个步骤。

分析您正在进行的项目

在考虑工作的道德影响时,很容易错过重要问题。有很大帮助的一件事就是提出正确的问题。Rachel Thomas 建议考虑 在整个数据项目的开发过程中存在以下问题:

  • 我们甚至应该这样做吗?

  • 数据中有什么偏差?

  • 代码和数据可以被审计吗?

  • 不同子组的错误率是多少?

  • 一个简单的基于规则的替代方案的准确性是多少?

  • 有哪些流程来处理上诉或错误?

  • 构建它的团队有多多样化?

这些问题可能能够帮助您识别突出的问题,以及更容易理解和控制的可能替代方案。除了提出正确的问题外,考虑实施的实践和流程也很重要。

在这个阶段要考虑的一件事是您正在收集什么数据,以及 存储。数据通常最终被用于不同目的的原始意图。例如,IBM 开始向纳粹销售 远在大屠杀之前的德国,包括帮助阿道夫·希特勒在 1933 年进行的德国人口普查,该人口普查有效地识别出比以前在德国承认的更多的犹太人。同样,在二战期间,美国人口普查数据被用来围捕日裔美国人(他们是美国公民)以进行拘禁。重要的是要认识到收集的数据和图像如何在以后被武器化。哥伦比亚大学教授Tim Wu 写道: “你必须假设 Facebook 或 Android 保留的任何个人数据都是世界各国政府试图获取或窃贼试图窃取的数据。”

实施过程

马库拉中心发布了 用于工程/设计实践的道德工具包,包括在贵公司实施的具体实践,包括定期扫描以主动搜索道德风险(以类似于网络安全渗透测试的方式),扩大道德圈以包括各种观点利益相关者,并考虑到可怕的人(不良行为者如何滥用、窃取、曲解、破解、破坏或武器化你正在构建的东西?)。

即使您没有多元化的团队,您仍然可以尝试主动纳入更广泛群体的观点,考虑以下问题(由 Markkula 中心提供):

  • 我们只是假设,而不是实际咨询谁的兴趣、愿望、技能、经验和价值观?

  • 我们的产品会直接影响到哪些利益相关者?他们的利益如何得到保障?我们怎么知道他们真正的兴趣是什么——我们问过吗?

  • 谁/哪些群体和个人将受到重大间接影响?

  • 谁可能会使用我们不希望使用的产品,或者用于我们最初不打算使用的目的?

道德镜片

Markkula 中心的另一个有用资源是它的 技术和工程实践中的概念框架。这考虑了 不同的基本道德视角如何帮助确定具体问题,并列出了以下方法和关键问题:

权利方法

哪种选择最能尊重所有利益相关者的权利?

正义之道

哪个选项平等或按比例对待人们?

功利主义的方法

哪种选择会产生最大的好处并造成最小的伤害?

共同的好方法

哪个选项最适合整个社区,而不仅仅是一些成员?

美德之道

哪个选项让我成为我想成为的那种人?

Markkula 的建议包括更深入地研究这些观点,包括从项目后果的角度看待项目:

  • 谁将直接受到该项目的影响?谁会受到间接影响?

  • 总体上的影响是否会产生更多的好处而不是伤害,以及什么类型的好处和伤害?

  • 我们是否在考虑所有相关类型的伤害/利益(心理、政治、环境、道德、认知、情感、制度、文化)?

  • 这个项目将如何影响子孙后代?

  • 这个项目造成伤害的风险是否不成比例地落在了社会上最没有权力的人身上?福利会不成比例地分配给富人吗?

  • 我们是否充分考虑了“双重用途”和意外的下游影响?

对此的另一种视角是道义论的观点,它侧重于的基本概念:

  • 我们必须尊重他人的哪些权利和对他人的义务?

  • 该项目如何影响每个利益相关者的尊严和自主权?

  • 哪些信任和正义考虑与该设计/项目相关?

  • 这个项目是否涉及对他人的任何冲突的道德义务,或冲突的利益相关者权利?我们如何优先考虑这些?

帮助对此类问题提出完整而周到的答案的最佳方法之一是确保提出问题的人是多样化的

多样性的力量

根据Element AI 的一项研究,目前,只有不到 12% 的 AI 研究人员是女性。在种族和年龄方面,统计数据同样可怕。当团队中的每个人都有相似的背景时,他们 可能在道德风险方面存在类似的盲点。哈佛商业评论(HBR) 发表了多项研究,展示了多元化团队的诸多好处 ,包括:

多样性可以导致更早发现问题,并考虑更广泛的解决方案。例如,Tracy Chou 是 Quora 的早期工程师。她 写下了她的经历,描述了她如何在内部提倡添加一个可以阻止巨魔和其他不良行为者的功能。Chou 回忆道,“我很想开发这个功能,因为我个人觉得在这个网站上受到了反感和虐待(性别并不是一个不太可能的原因)......但如果我没有这种个人观点,可能Quora 团队在其存在的早期就不会优先考虑构建阻止按钮。” 骚扰经常将边缘化群体的人赶出在线平台,因此这一功能对于维持 Quora 社区的健康非常重要。

要了解的一个关键方面是,女性离开科技行业的时间是 是男性的两倍多。根据哈佛商业评论,41% 的女性在科技行业工作,而男性则为 17%。对 200 多本书籍、白皮书和文章的分析发现,他们离开的原因是“他们受到了不公平的对待;薪水过低,比他们的男同事更不可能被快速跟踪,并且无法晋升。”

研究证实了一些使女性更难在工作场所取得进步的因素。女性在绩效评估中会收到更多模糊的反馈和个性批评,而男性会收到与业务成果相关的可行建议(这更有用)。女性经常经历被排除在更具创造性和创新性的角色之外,并且没有接受有助于晋升的高知名度“延伸”任务。一项研究发现,男性的声音被认为比女性的声音更有说服力、基于事实和合乎逻辑,即使在阅读相同的剧本时也是如此。

统计数据表明,接受指导可以帮助男性进步,但不能帮助女性。这背后的原因是,当女性接受指导时,这是关于她们应该如何改变并获得更多自我认识的建议。当男人接受指导时,这是对他们权威的公开认可。猜猜哪个更有助于升职?

只要合格的女性不断退出科技行业,教更多女孩编程就无法解决困扰该领域的多样性问题。尽管有色人种女性面临许多额外的障碍,但多元化举措最终往往主要集中在白人女性身上。在对 60 名从事 STEM 研究的有色人种女性的采访中,100% 的女性都经历过歧视。

招聘过程在科技领域尤为严重。一项表明功能失调的研究来自 Triplebyte,该公司帮助将软件工程师安置在公司中,并在此过程中进行标准化的技术面试。该公司有一个引人入胜的数据集:300 多名工程师在考试中的表现,以及这些工程师在各种公司面试过程中的表现。Triplebyte 研究的第一个发现 是“每家公司寻找的程序员类型通常与公司需要或做什么几乎没有关系。相反,它们反映了公司文化和创始人的背景。”

对于那些试图打入深度学习世界的人来说,这是一个挑战,因为当今大多数公司的深度学习小组都是由学者创立的。这些群体倾向于寻找“喜欢他们”的人——即能够解决复杂数学问题并理解密集行话的人。他们并不总是知道如何发现真正擅长使用深度学习解决实际问题的人。

这为那些准备超越地位和血统并专注于结果的公司留下了巨大的机会!

公平、问责和透明

计算机科学家专业协会 ACM 举办了一个名为“公平会议”的数据伦理会议, 问责制和透明度 (ACM FAccT),过去使用首字母缩写词 FAT,但现在使用不太令人反感的 FAccT。微软还有一个专注于 AI 中的公平、问责、透明度和道德 (FATE) 的小组。在本节中,我们将使用首字母缩略词 FAccT 来指代公平、问责和透明的概念。

FAccT 是一些人用来考虑道德的镜头 问题。一个有用的资源是免费的在线书籍 公平和机器学习: Solon Barocas 等人的限制和机会,它“给出了机器学习的观点,将公平视为核心问题,而不是事后的想法。” 然而,它也警告说,它“故意缩小范围......机器学习伦理的 狭隘框架可能会吸引技术人员和企业作为一种专注于技术干预同时回避有关权力和问责制的更深层次问题的方式。我们告诫不要这种诱惑。” 与其提供关于道德的 FAccT 方法的概述(最好在诸如那本书之类的书中完成),我们这里的重点将放在这种狭窄框架的局限性上。

考虑道德镜头是否完整的一个好方法是尝试提出一个例子,其中镜头和我们自己的道德直觉给出不同的结果。奥斯凯斯等人。以图形的方式探索了这一点 在他们的论文“覆盖建议:分析和改进将老年人变成高营养泥浆的算法系统”中。该论文的摘要说:

在人机交互和对技术设计、开发和政策感兴趣的更广泛的社区中,算法系统的伦理影响已经得到了很多讨论。在本文中,我们探讨了将一个突出的道德框架——公平、问责和透明度——应用于解决围绕粮食安全和人口老龄化的各种社会问题的提议算法。使用各种标准化形式的算法审计和评估,我们大大增加了算法对 FAT 框架的遵守,从而形成了一个更加道德和有益的系统。我们讨论了这如何作为其他研究人员或从业人员的指南,以确保他们的工作中的算法系统获得更好的道德结果。

在这篇论文中,颇具争议的提议(“把老年人变成高营养浆”)和结果(“大幅增加算法对 FAT 框架的依从性,从而产生更道德和有益的系统”)是不一致的……至少说!

在哲学中,尤其是伦理哲学中,这是最有效的工具之一:首先,提出一个过程、定义、一组问题等,旨在解决问题。然后试着想出一个例子,在这个例子中,这个明显的解决方案会导致一个没有人认为可以接受的提案。这可以导致解决方案的进一步细化。

到目前为止,我们一直专注于您和您的组织可以做的事情。但有时个人或组织的行动是不够的。有时政府还需要考虑政策影响。

政策的作用

我们经常与渴望技术或设计修复的人交谈 成为我们一直在讨论的各种问题的完整解决方案;例如,去偏数据的技术方法,或降低技术成瘾性的设计指南。虽然这些措施可能有用,但它们不足以解决导致我们当前状态的潜在问题。例如,只要创造令人上瘾的技术是有利可图的,公司就会继续这样做,不管这是否会产生宣传阴谋论和污染我们的信息生态系统的副作用。虽然个别设计师可能会尝试调整产品设计,但在潜在的利润激励发生变化之前,我们不会看到实质性的变化。

监管的有效性

要了解哪些因素可以促使公司采取具体行动,请考虑 以下两个例子说明了 Facebook 的行为方式。2018 年,联合国的一项调查发现,Facebook 在对缅甸少数民族罗兴亚人的持续种族灭绝中发挥了“决定性作用”,联合国秘书长安东尼奥·古特雷斯将其描述为“即使不是最受歧视的人之一”。世界。” 当地活动人士一直在警告 Facebook 高管,他们的平台早在 2013 年就被用来传播仇恨言论和煽动暴力。2015 年,他们被警告说 Facebook 在缅甸可以扮演与卢旺达种族灭绝期间无线电广播相同的角色(有一百万人被杀)。然而,到 2015 年底,Facebook 只雇佣了四名会说缅甸语的承包商。正如一位知情人士所说,“这不是 20/20 后见之明。这个问题的规模很大,而且已经很明显了。” 扎克伯格在 国会听证会聘请“数十人”解决缅甸的种族灭绝事件(2018 年,种族灭绝开始多年后,包括 2017 年 8 月后若开邦北部至少 288 个村庄被火烧毁)。

这与 Facebook 迅速形成鲜明对比 在德国雇佣 1,200 名员工,以避免根据德国新的反对仇恨言论的法律处以昂贵的罚款(高达 5000 万欧元)。显然,在这种情况下,Facebook 对经济处罚威胁的反应比对系统性摧毁少数族裔的反应更大。

一篇关于隐私问题的文章中,Maciej Ceglowski 与环保运动:

这个监管项目在第一届就非常成功 我们冒着忘记之前生活的风险的世界。今天在雅加达和德里造成数千人死亡的那种令人窒息的烟雾 曾经是伦敦的象征。俄亥俄州的凯霍加河曾经 可靠地着火。在一个不可预见的后果的特别可怕的例子中,添加到汽油中的四乙基铅使 全球暴力犯罪率上升了 50 年。这些危害都无法通过告诉人们用钱包投票、仔细审查他们提供业务的每家公司的环境政策或停止使用相关技术来解决。解决这些问题需要跨司法管辖区进行协调,有时甚至是高度技术性的监管。在某些情况下,例如 禁止消耗臭氧层的商业制冷剂,该法规需要全世界达成共识。我们正处于需要对隐私法进行类似转变的地步。

权利和政策

清洁的空气和清洁的饮用水是近乎公共产品 不可能通过单独的市场决策来保护,而是需要协调的监管行动。同样,滥用技术的意外后果造成的许多危害涉及公共产品,例如污染的信息环境或恶化的环境隐私。隐私常常被视为一项个人权利,但对广泛的监视有社会影响(即使少数人可以选择退出,情况仍然如此)。

我们在科技领域看到的许多问题都是人权问题,例如当一个有偏见的算法建议黑人被告有更长的刑期时,当特定的招聘广告只向年轻人展示时,或者当警察使用面部识别来识别抗议者时。解决人权问题的适当途径通常是通过法律。

我们既需要监管和法律变革,需要个人的道德行为。个人行为改变无法解决错位的利润激励、外部性(公司获得巨额利润的同时将成本和对更广泛社会的危害)或系统性失败。然而,法律永远不会涵盖所有边缘情况,重要的是个人软件开发人员和数据科学家有能力在实践中做出符合道德的决定。

汽车:历史先例

我们面临的问题很复杂,没有简单的解决方案。这可能令人沮丧,但我们在考虑人们在整个历史上解决的其他重大挑战时找到了希望。一个例子是提高汽车安全性的运动,作为案例研究进行了介绍 在Timnit Gebru 等人的“数据集数据表”中。在设计播客中 99% Invisible。早期的汽车没有安全带,仪表板上的金属旋钮在碰撞过程中可能会卡在人们的头骨中,普通的平板玻璃窗会以危险的方式破碎,并且不可折叠的转向柱会刺伤驾驶员。然而,汽车公司甚至拒绝将安全性作为他们可以帮助解决的问题进行讨论,人们普遍认为汽车就是它们的本来面目,而且是使用它们的人造成了问题。

消费者安全活动家和倡导者花了几十年的时间来改变全国性的对话,以考虑汽车公司可能有一些应该通过监管来解决的责任。发明可折叠转向柱时,由于没有经济上的激励,因此几年都没有实施。大型汽车公司通用汽车公司聘请私人侦探试图挖掘消费者安全倡导者拉尔夫纳德的污垢。对安全带、碰撞试验假人和可折叠转向柱的要求是重大胜利。直到2011年才要求车企开工 使用代表普通女性的碰撞测试假人,而不仅仅是普通男性的身体;在此之前,与男性相比,女性在同等冲击力的车祸中受伤的可能性要高出 40%。这是偏见、政策和技术如何产生重要后果的生动例子。

结论

来自使用二元逻辑的背景,伦理学缺乏明确的答案一开始可能会令人沮丧。然而,我们的工作如何影响世界的影响,包括意想不到的后果和工作被不良行为者武器化,是我们可以(而且应该!)考虑的一些最重要的问题。即使没有任何简单的答案,也有一些明确的陷阱需要避免,并且要遵循一些实践来走向更合乎道德的行为。

许多人(包括我们!)正在寻找关于如何解决技术有害影响的更令人满意、更可靠的答案。然而,鉴于 我们所面临的问题的复杂、深远和跨学科性质,没有简单的解决方案。朱莉娅·安格温,前 ProPublica 的高级记者专注于算法偏见和监视问题(以及帮助激发 FAccT 领域的 COMPAS 累犯算法的 2016 年调查员之一)在 2019 年的采访中说:

我坚信,为了解决问题,您必须对其进行诊断,而我们仍处于诊断阶段。如果你想想世纪之交和工业化,我不知道,我们有 30 年的童工、无限的工作时间、恶劣的工作条件,而且需要大量记者的挖苦和宣传来诊断问题和了解它是什么,然后采取行动改变法律。我觉得我们正处于数据信息的第二次工业化中……我认为我的角色是尽可能地弄清楚缺点是什么,并真正准确地诊断它们,以便可以解决它们。这是一项艰苦的工作,需要更多的人去做。

令人欣慰的是,Angwin 认为我们在很大程度上仍处于诊断阶段:如果您对这些问题的理解不完整,那是正常和自然的。没有人有“治愈方法”,尽管我们继续努力更好地理解和解决我们面临的问题至关重要。

  • 6
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Sonhhxg_柒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值