AI 和机器学习中暗含的算法偏见 | Linux 中国

原创 2018年04月14日 00:00:00
640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1我们又能通过开源社区做些什么?-- Justin Sherman

有用的原文链接请访问文末的“原文链接”获得可点击的文内链接、全尺寸原图和相关文章。

致谢编译自 | https://opensource.com/article/18/1/how-open-source-can-fight-algorithmic-bias
 作者 | Justin Sherman
 译者 | Valonia Kim (Valoniakim) ? ? 共计翻译:4 篇 贡献时间:63 天

我们又能通过开源社区做些什么?

在我们的世界里,算法无处不在,偏见也是一样。从社会媒体新闻的提供到流式媒体服务的推荐到线上购物,计算机算法,尤其是机器学习算法,已经渗透到我们日常生活的每一个角落。至于偏见,我们只需要参考 2016 年美国大选就可以知道,偏见是怎样在明处与暗处影响着我们的社会。

很难想像,我们经常忽略的一点是这二者的交集:计算机算法中存在的偏见。

与我们大多数人的认知相反,科技并不是客观的。 AI 算法和它们的决策程序是由它们的研发者塑造的,他们写入的代码,使用的“训练[1]”数据还有他们对算法进行应力测试[2] 的过程,都会影响这些算法今后的选择。这意味着研发者的价值观、偏见和人类缺陷都会反映在软件上。如果我只给实验室中的人脸识别算法提供白人的照片,当遇到不是白人照片时,它不会认为照片中的是人类[3] 。这结论并不意味着 AI 是“愚蠢的”或是“天真的”,它显示的是训练数据的分布偏差:缺乏多种的脸部照片。这会引来非常严重的后果。

这样的例子并不少。全美范围内的州法院系统[4] 都使用“黑盒”对罪犯进行宣判。由于训练数据的问题,这些算法对黑人有偏见[5] ,他们对黑人罪犯会选择更长的服刑期,因此监狱中的种族差异会一直存在。而这些都发生在科技的客观性伪装下,这是“科学的”选择。

美国联邦政府使用机器学习算法来计算福利性支出和各类政府补贴。但这些算法中的信息[6],例如它们的创造者和训练信息,都很难找到。这增加了政府工作人员进行不平等补助金分发操作的几率。

算法偏见情况还不止这些。从 Facebook 的新闻算法到医疗系统再到警用携带相机,我们作为社会的一部分极有可能对这些算法输入各式各样的偏见、性别歧视、仇外思想、社会经济地位歧视、确认偏误等等。这些被输入了偏见的机器会大量生产分配,将种种社会偏见潜藏于科技客观性的面纱之下。

这种状况绝对不能再继续下去了。

在我们对人工智能进行不断开发研究的同时,需要降低它的开发速度,小心仔细地开发。算法偏见的危害已经足够大了。

我们能怎样减少算法偏见?

最好的方式是从算法训练的数据开始审查,根据 微软的研究人员[2] 所说,这方法很有效。

数据分布本身就带有一定的偏见性。编程者手中的美国公民数据分布并不均衡,本地居民的数据多于移民者,富人的数据多于穷人,这是极有可能出现的情况。这种数据的不平均会使 AI 对我们是社会组成得出错误的结论。例如机器学习算法仅仅通过统计分析,就得出“大多数美国人都是富有的白人”这个结论。

即使男性和女性的样本在训练数据中等量分布,也可能出现偏见的结果。如果训练数据中所有男性的职业都是 CEO,而所有女性的职业都是秘书(即使现实中男性 CEO 的数量要多于女性),AI 也可能得出女性天生不适合做 CEO 的结论。

同样的,大量研究表明,用于执法部门的 AI 在检测新闻中出现的罪犯照片时,结果会 惊人地偏向[7] 黑人及拉丁美洲裔居民。

在训练数据中存在的偏见还有很多其他形式,不幸的是比这里提到的要多得多。但是训练数据只是审查方式的一种,通过“应力测验”找出人类存在的偏见也同样重要。

如果提供一张印度人的照片,我们自己的相机能够识别吗?在两名同样水平的应聘者中,我们的 AI 是否会倾向于推荐住在市区的应聘者呢?对于情报中本地白人恐怖分子和伊拉克籍恐怖分子,反恐算法会怎样选择呢?急诊室的相机可以调出儿童的病历吗?

这些对于 AI 来说是十分复杂的数据,但我们可以通过多项测试对它们进行定义和传达。

为什么开源很适合这项任务?

开源方法和开源技术都有着极大的潜力改变算法偏见。

现代人工智能已经被开源软件占领,TensorFlow、IBM Watson 还有 scikit-learn[8] 这类的程序包都是开源软件。开源社区已经证明它能够开发出强健的,经得住严酷测试的机器学习工具。同样的,我相信,开源社区也能开发出消除偏见的测试程序,并将其应用于这些软件中。

调试工具如哥伦比亚大学和理海大学推出的 DeepXplore[9],增强了 AI 应力测试的强度,同时提高了其操控性。还有 麻省理工学院的计算机科学和人工智能实验室[10]完成的项目,它开发出敏捷快速的样机研究软件,这些应该会被开源社区采纳。

开源技术也已经证明了其在审查和分类大组数据方面的能力。最明显的体现在开源工具在数据分析市场的占有率上(Weka、Rapid Miner 等等)。应当由开源社区来设计识别数据偏见的工具,已经在网上发布的大量训练数据组比如 Kaggle[11] 也应当使用这种技术进行识别筛选。

开源方法本身十分适合消除偏见程序的设计。内部谈话、私人软件开发及非民主的决策制定引起了很多问题。开源社区能够进行软件公开的谈话,进行大众化,维持好与大众的关系,这对于处理以上问题是十分重要的。如果线上社团,组织和院校能够接受这些开源特质,那么由开源社区进行消除算法偏见的机器设计也会顺利很多。

我们怎样才能够参与其中?

教育是一个很重要的环节。我们身边有很多还没意识到算法偏见的人,但算法偏见在立法、社会公正、政策及更多领域产生的影响与他们息息相关。让这些人知道算法偏见是怎样形成的和它们带来的重要影响是很重要的,因为想要改变目前的局面,从我们自身做起是唯一的方法。

对于我们中间那些与人工智能一起工作的人来说,这种沟通尤其重要。不论是人工智能的研发者、警方或是科研人员,当他们为今后设计人工智能时,应当格外意识到现今这种偏见存在的危险性,很明显,想要消除人工智能中存在的偏见,就要从意识到偏见的存在开始。

最后,我们需要围绕 AI 伦理化建立并加强开源社区。不论是需要建立应力实验训练模型、软件工具,或是从千兆字节的训练数据中筛选,现在已经到了我们利用开源方法来应对数字化时代最大的威胁的时间了。


via: https://opensource.com/article/18/1/how-open-source-can-fight-algorithmic-bias

作者:Justin Sherman[13] 译者:Valoniakim 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出


版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/F8qG7f9YD02Pe/article/details/79947319

机器学习和数据挖掘(8):偏见方差权衡

偏见方差权衡偏见和方差我们一直试图在近似和泛化之间找到一个平衡。我们的目标是得到一个较小的EoutE_{out},也希望在样例之外也表现得非常棒的EoutE_{out}。复杂的假设集H\mathcal...
  • u013007900
  • u013007900
  • 2017-08-06 21:48:55
  • 283

机器学习、深度学习、和AI算法可以在网络安全中做什么?

本文作者:Alexander Polyakov,ERPScan的首席技术官和联合创始人、EAS-SEC总裁,SAP网络安全传播者。现在已经出现了相当多的文章涉及机器学习及其保护我们免遭网络攻击的能力。...
  • yidunmarket
  • yidunmarket
  • 2018-03-29 19:40:02
  • 100

机器学习算法中的偏差-方差权衡(Bias-Variance Tradeoff)

机器学习算法中的偏差-方差权衡(Bias-Variance Tradeoff)
  • tangzhangpeng
  • tangzhangpeng
  • 2014-05-10 22:11:01
  • 1242

一张图看懂AI、机器学习和深度学习的区别

AI(人工智能)是未来,是科幻小说,是我们日常生活的一部分。所有论断都是正确的,只是要看你所谈到的AI到底是什么。   例如,当谷歌DeepMind开发的AlphaGo程序打败韩国职业围棋高手Lee...
  • dukai392
  • dukai392
  • 2017-04-20 16:54:23
  • 18347

Unity人工智能学习—确定性AI算法之追踪算法五

前面的追踪都能很好的解决大部分的问题,但是人工智能的宗旨是模拟实现更为真实更为智能的智能体。同样,一个简单的追踪算法它也是有很多优化为更智能的需求。这一篇是追踪算法里面的拦截追踪,效果图如图所示: ...
  • zhangxiao13627093203
  • zhangxiao13627093203
  • 2015-10-09 11:47:52
  • 1830

人工智能之机器学习算法体系汇总

目录(?)[+] 1.人工智能之机器学习体系汇总2.人工智能相关趋势分析  2.1.人工智能再次登上历史舞台2.2.Python才是王道2.3.深度学习趋势大热2.4.中国...
  • qq_34424731
  • qq_34424731
  • 2017-07-31 15:26:04
  • 1871

FPGA机器学习之机器学习的n中算法总结1

机器学习是AI领域的重要一门学科。前面我描述过,我计划从事的
  • my_share
  • my_share
  • 2014-09-05 08:03:21
  • 4016

[视频]AI 机器学习 深度学习 视频教程汇总

AI 机器学习 深度学习 视频教程汇总,长期更新 1、机器学习-吴恩达(课堂版-中英字幕-网易公开课版 20集) 2、机器学习-吴恩达(录屏版-中英字幕)共113集 3、自然语言处理的深度学习_斯坦福...
  • cococoolwhj
  • cococoolwhj
  • 2017-09-10 14:36:34
  • 983

2018全球大学AI排名发布,中国高校表现强势!

来源:四川自主招生网本文共约1800字,建议阅读6分钟。本文为你列出基于CSranking计算的CS领域体系与师资方面的全球高校排名。[导读] 近日,麻省理工学院马萨诸塞校区计算机与信息科学学院教授 ...
  • eNohtZvQiJxo00aTz3y8
  • eNohtZvQiJxo00aTz3y8
  • 2018-03-21 00:00:00
  • 242
收藏助手
不良信息举报
您举报文章:AI 和机器学习中暗含的算法偏见 | Linux 中国
举报原因:
原因补充:

(最多只允许输入30个字)