微软删除了人脸识别库,除了因为隐私,更重要的恐怕是因为性别歧视和种族主义...

640?wx_fmt=jpeg

我们在日常生活中,不管是使用Siri操作手机、在Google搜索图片,还是在机场进行安检时候进行的人脸识别,他们的工作原理其实基本相似,都是基于大量数据所进行的分析。这些数据集可能包含数千张人脸图片或者是上千兆字节的音频日志。


所有A.I.方向的工作,归根结底都是在和这些数据集打交道,它们可以称得上是A.I.项目的“原材料”了。与一般人想像的不同,这些“原材料”其实非常昂贵,建造它们需要专业的知识与大量的投资,所以各大企业和学术机构都会尝试自己构建数据集,然后共享出来一部分——这就是所谓的开放数据集。


但是,开放出来并不一定意味着是一件好事,有时候甚至有违伦理。上周,微软悄然删除了全球最大的公开人脸识别数据集“MS Celeb”,而在此之前,一项监督项目“MegaPixels”刚刚发布了一份报告,该报告表明,微软的数据集中不仅包括了公众知名人士的照片,还包括了记者以及普通民众的照片,这些数据集已被大量的私人研究机构下载和传播。


“MegaPixels”创始人对此表示:“我们每个人对事物都有一个可接受的底线,但显然科研人员的底线和普通民众的底线存在着很大的偏差。


01

数据集的由来


2016年,为了服务于学术上的比赛,微软创建了MS Celeb数据集,其中包括了网络上凑集的将近10万人逾1000万张面部图像。参赛者使用该数据集来训练他们的面部识别算法,然后在竞赛中根据其准确度来判定他们算法的优劣。赛后,MS Celeb转为免费公开数据集,供所有人下载和使用,方便人们训练自己的面部识别算法。但是直至MegaPixels指出问题以前,当时没有人意识到,其实这个数据集中包含了大量的私人图像。


MS Celeb现在被微软删除并重新审查,但是其实还有很多其他的大型数据集可以被随意使用甚至是滥用。举个例子:一个招聘算法的训练数据集可能就会有很多隐患,当我们的模型得到了更多关于男性高层职位的数据时,算法就会将“男性”与“领导”联系起来,这将无意识的加强了社会的一些偏见。再比如,一个数据集中有大量较浅肤色的人脸,那么面部识别算法在识别肤色较深的人脸方面,识别率就会明显下降,这种算法在执法与安保上就会显得非常不可靠甚至是危险的。


640?wx_fmt=jpeg

图片来源:Andrej Karpathy /斯坦福大学


虽然微软称MS Celeb为“全球最大的公开人脸识别数据集”,但是其实大家更广泛使用的图像识别数据集是“ImageNet”,它是由斯坦福大学教授、谷歌云的前首席科学家李飞飞创建的。


2007年,在ImageNet项目第一次启动时,计算机科学家中普遍流行的理论是:有一种尚未发现的算法可以让A.I.像人一样学习。李飞飞却别出机杼,她没有试图完善核心算法,而是专注于数据,给她的算法提供更多的数据支持,从中提取特征。她创建了ImageNet,为计算机视觉算法提供数以百万计的图像,然后发起了一场竞赛,以推动研究人员在图像识别的精度上展开竞争。


2012年,一个由著名计算机科学家Geoffrey Hinton领导的多伦多团队,利用他们几十年来一直在研究的一个边缘概念(至少当时还是边缘的)——人工神经网络,证明了,只要有足够的数据,A.I.就可以像我们人类一样识别出来物体对象。


不同的数据集其实大多会针对特定用例而定制。在人脸识别领域,最广泛使用的数据集是“Labeled Faces in the Wild”,这是由马萨诸塞大学阿姆赫斯特分校(University of Massachusetts-Amherst)创建的,旨在增强人脸识别在不同角度和不同光照条件下识别人的能力。与微软的MS Celeb很像,它主要也是由演员、名人和其他公众人物的照片组成。


以上这些数据集之所以公开存在,很大一部分原因倒是来自学术界。


640?wx_fmt=jpeg


有一个奇怪的点在于,尽管Google、Microsoft、Facebook、Amazon等大型科技公司投入数十亿美元在人工智能方面,但是A.I.的研究,实际上还是根植于大学的。而这些学者在学术方面,一直希望并且也努力的让计算机科学的数据更容易获取,就在去年,他们还抵制了《Nature》杂志付费期刊,因为他们认为,研究内容不是小说,不应该置于付费墙之后。在A.I.的研究人员来看,至少在学术领域这个相对封闭的环境中,免费且公开可用的数据集是非常必要的。


02

数据集的偏见


“无数人下载了WordNet,并将其应用在自己的领域。而我们无法控制他们用它来做什么……”


这些数据集用于学术就没什么问题么?显然不是,比如ImageNet本身是建立在一个名为WordNet的语言数据集上的。WordNet是由心理学家George Miller在上世纪80年代末领导的一个小组创建的,其目的是通过将单词按层次类别排列来组织它们。例如,单词“椅子”被归入单词“家具”,而单词“家具”又被归入类别“工艺品”……


ImageNet沿用了这些分类来描述其数据集中包含的图片。但是,WordNet以及ImageNet中的一些词语隐藏着一些过时的种族语言和刻板印象。非洲裔黑人的类别包含1404张图片,包括了“Black,Black person,blackamoor,Negro,Negroid”等字样。数据集中的这些词语是赤裸裸的种族歧视。而几乎在所有种族或性别分类中都可以找到类似的语言。


普林斯顿大学计算机科学教授Christiane Fellbaum现在负责维护WordNet。他说:“我必须补充一点,很多人下载了WordNet,并把它变成了自己的东西。我们无法控制他们用它做什么,所以这个不幸的词条可能会在其他词典中继续存在……”,“WordNet是由许多人编写的,依赖于许多词典,其中一本是《美国传统词典》我们通过搜索显示,WordNet中的许多单词,如jezebel或negroid,确实存在于词典中。”


大家可以去尝试一下ImageNet Roulette这个在线工具,然后把你的头像或其他东西与ImageNet数据集中最近的图像相匹配,就可以看到你被归为哪个ImageNet的类别了。我们请我们的博士后研究员Sarah Myers West将她将自己的Twitter照片上传后,得到的回复是“hussy”和“jezebel”……


640?wx_fmt=png


我们又去查看了“Labeled Faces in the Wild”数据集,其中绝大多数是白人和男性,数据集中有11590名男性和4109名女性。种族被随意划分为三类:“白人”、“深色皮肤人种”和“亚洲人”,结果更加明显,共有12373张白人脸、1145张深色皮肤脸和2166张亚洲人脸。虽然数据集的作者没有解释具体的图片是如何选择的,不过据说图片是从新闻中选取的。


人工智能研究所(ai Now Institute)发表的一份报告中,迈尔斯指出,数据集中被标记的人脸的构成,反映了它们本身往往带有偏见的社会价值观。她写道:“当时的新闻媒体主要报道那些明星和当权者,而这些人又往往是白人男性。”“从这个来源来看,这些数据可以被理解为21世纪初社会等级制度,通过媒体再现了出来。”


03

有偏见的数据集带来更大的危害


随着人工智能的普及,这些数据集的构成将变得越来越重要。现在的人工智能算法已经可以明显感受到数据集的标签所带来的偏见。 例如,一些求职招聘软件使用的算法,会建议女性应护士一类的工作,而男性则应该选择医生或经理。 这些算法针对的是历史社会数据进行的训练,所以里面必然会存在那些已经过时了的刻板印象。


不平衡数据集也已经被证明会导致面部识别算法出现偏差。麻省理工学院的研究显示,大型科技公司训练的算法模型在白人男性的人脸识别上,比深色皮肤女性的人脸识别会更准确。


640?wx_fmt=jpeg


数据集一旦公开,就很难去解决这些历史遗留问题。MegaPixels的创始人Adam Harvey说:尽管微软从自己的网站上删除了数据集,但数据集本身并不会从互联网上消失。整个数据集仍然以种子文件的形式被随意下载,仅在过去一周内,它就被下载了50多次。


数据是数据科学的基石,人们从互联网上大量搜集尽可能多的数据,然后将其打包成机器学习工具。然而使用它们的人不可能清楚的了解其中包含的每一个数据——这些数据集实在是太大了,仅仅MS Celeb就将近250个G。


而这仅仅是开源的数据集,许多公司还维护着自己的内部数据集,比如谷歌的JFT-300M,它由3亿张图片组成,从不向公众开放。这个数据集可以用于任何谷歌的产品,比如谷歌Photos的图像标签系统。2015年的时候,这个系统将两个黑人用户归类为大猩猩,而谷歌的解决方案是从谷歌照片中完全删除“大猩猩”分类……


可以想象,数据集中还会存在大量的偏见,但我们接触不到,所以我们也无法确定……


04

改变,就在现在


垃圾的输入带来垃圾的输出,这其实一直是计算机编程的真理之一。专家们意识到,需要采取措施来扭转这些廉价数据集所带来的不良影响。欧盟正在将大型、开放的数据集作为其人工智能政策的主要目标,并正在构建“数据空间”,以创建更好的数据集,让研究人员和企业能够利用这些数据集,同时仍尊重用户的隐私。


640?wx_fmt=jpeg


伊利诺伊州在2008年签署了《生物特征信息隐私法》(biometric Information Privacy Act),专门针对面部识别和生物特征数据。该法律要求私营公司在将其加入任何类型的生物识别数据库之前,必须获得伊利诺伊州公民的同意。Facebook和谷歌都因这项法律被起诉。


10k US Adult Faces数据库的创始人Wilma Bainbridge,采取了一种不同的方式,来防止数据被恶意使用。她在律师的指导下,通过人工审核的方法,来批准或拒绝下载数据集的应用程序,减少了自动化流程带来的不确定性。


数据集是科技公司和研究人员的“试验田”,正是这些数据集的存在,才让我们的计算机科学得到了飞速的发展。


微软等公司从计算机视觉算法中攫取的利益是巨大的,而那些“被”用来训练过算法的人们却得不到任何报酬,甚至他们对此一无所知。而今我们对MS Celeb的强烈抗议可能表明,人们终于开始或多或少的了解到,对于那些利用这些数据来推动人工智能技术发展的万亿美元公司来说,他们的脸到底值多少钱。


参考链接:

https://onezero.medium.com/a-privacy-dustup-at-microsoft-exposes-major-problems-for-ai-53e0b4206e98

——————————————


往期精彩:

640?wx_fmt=png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值