2019年CS224N课程笔记-Lecture 19:Safety, Bias, and Fairness

30 篇文章 8 订阅
28 篇文章 13 订阅

资源链接:https://www.bilibili.com/video/BV1r4411f7td?p=19

毒性/toxicity->戾气程度

正课内容

对于现实中的这种香蕉我们倾向于不提黄色(第一次看这个图的时候很少/几乎没有有人说黄色),因为黄色是他的原型(绿色和斑点则不是)

原型理论

分类的目的之一是将刺激之间的无限差异缩小到行为和认知上可用的比例
物品可能有一些核心的原型概念,这些概念来自于存储的对象类别的典型属性(Rosch,1975)
也可以存储样本/存储范例?(感觉翻译的不是很理解)(Wu&Barsalou,2009)

(原型到底存储吗?现实是 人们总是倾向于什么是典型和注意非典型的事务)

医生——女医生

一名男子和他的儿子遭遇严重事故,被紧急送往医院抢救。
医生看着那个男孩,喊道:“我不能给这个男孩动手术,他是我的儿子!”
怎么会这样?两个爸爸或者他妈妈是医生

 

(咱们现实中可能也是如果有什么问题了,可能只会关注他/她是不是医生,而不太会关注性别)

大多数受试者忽略了医生是女性的可能性——包括男性、女性和自称的女权主义者。

我们做事情的和假设的方式,不一定有负面意图,但是有些东西可以说明我们是如何实际存储表示的、我们的思想以及在互动时如何访问这些表示(这也影响了我们从文本中学习时可以学到的东西)

2013年的一个工作,只要看看从原始文本中学习,最有可能会学到什么?

谋杀是眨眼的10倍多,因为人们不倾向于提及眨眼、呼吸等事情(习以为常的事情),而模式是非典型事件(是不是可以理解成非习以为常事件?...),而机器学的的这些受人类习惯的影响(实际中考虑行为来说,眨眼在现实中远远远远远远高于谋杀吧)

人类报告偏差

人们写行为、结果或属性的频率并不是真实世界频率的反映(现实中眨眼远远...高于谋杀),也不是一种属性在多大程度上是一类个体的特征

更多的是关于我们处理世界和我们认为非凡的东西的实际情况。这影响到系统/计算机/机器学习的一切。

收集并可能标注培训数据->训练模型->媒体可以过滤排序、汇总或者以某种方式产生(不太懂。。。)->人们可以看到输出

将各种偏见在训练前嵌入数据中

讲师认为对于人工智能非常重要的一些偏见,如下:

数据

  • Reporting bias/报告偏见:人们分享的并不是真实世界频率的反映
  • Selection Bias/选择偏差:选择不反映随机样本
  • Out-group homogeneity bias/外群体同质性偏见:在比较态度、价值观、性格特征和其他特征时,人们倾向于认为外部群体成员比内部群体成员更相似

解释

  • Confirmation bias/确认偏见:倾向于寻找、解释、支持和回忆信息,以确认一个人先前存在的信念或假设
  • Overgeneralization/泛化过度:根据过于笼统和/或不够具体的信息得出结论
  • Correlation fallacy/相关性谬误:混淆相关性和因果关系
  • Automation bias/自动化偏差:人类倾向于喜欢来自自动化决策系统的建议,而不是没有自动化的相互矛盾的信息

再来看另一例子

Selection Bias/选择偏差:选择不反映随机样本

真正影响我们可以从文本中学到的东西的偏差是选择偏差,例如在世界上工人分布就很不一样

Out-group homogeneity bias/外群体同质性偏见:在比较态度、价值观、个性特征和其他特征时,往往群体外的成员认为比群体内的成员更相似。例如,两只小狗正在看四只猫,左边的四只猫之间是非常不同的,但是在狗的眼里他们是相同的。

重要的是延伸到:人类的认知和我们如何处理人

有可能你对每一个你能想到的群体都有一个适当的数据量,但是有些群体的代表性不如其他群体。

三组婚纱照前两个类似西方人的就有许多标签,而第三张则很少。这就是一种偏见,其实我感觉也不太像结婚的。。。

解释偏见

Confirmation bias/确认偏见:倾向于寻找、解释、支持和回忆信息,以确认一个人先前存在的信念或假设(感觉是先入为主)

Overgeneralization/泛化过度:根据过于笼统和/或不够具体的信息得出结论(相关:过拟合)

所有猫都有腿,我也有腿,所有我是只可爱的小猫咪~喵~~~

Correlation fallacy/相关性谬误:混淆相关性和因果关系

Automation bias/自动化偏差:人类倾向于喜欢来自自动化决策系统的建议,而不是没有自动化的相互矛盾的信息

偏见会让他形成回路(恶性循环)

这被称为 Bias Network Effect/偏置网络效应 以及 Bias “Laundering”

人类数据延续了人类的偏见。当机器学习从人类数据中学习时,结果是一个偏置网络效应。

“偏见”可以是好的,坏的,中性的

统计以及 ML中的偏差

  • 估计值的偏差:预测值与我们试图预测的正确值之间的差异
  • “偏差”一词b(如y = mx + b)

认知偏见

  • 确认性偏差、近因性偏差、乐观性偏差

算法偏差

  • 对与种族、收入、性取向、宗教、性别和其他历史上与歧视和边缘化相关的特征相关的人的不公平、不公平或偏见待遇,何时何地在算法系统或算法辅助决策中体现出来”

“虽然神经网络可以说是自己编写程序,但它们只是利用以人类目的而收集的数据,朝着人类设定的目标前进。如果数据有偏差,即使是偶然的,计算机也将放大不公。”
                                                                                   -卫报

预测未来犯罪行为

  • 算法识别潜在的犯罪热点
  • 基于之前报道的犯罪的地方,而不是已知发生在哪里
  • 从过去预测未来事件
  • 预测的是逮捕的地方而不是犯罪的地方

可能会造成一种别人去热点地区就有概率是去搞破坏

预测量刑

  • Prater (白人)被认为 低风险 在入店行窃后,尽管两个武装抢劫;一次持械抢劫未遂。
  • Borden (黑色)被认为 高危险 因为她和一个朋友(但在警察到来之前返回)一辆自行车和摩托车坐在外面。
  • 两年后,Borden没有被指控任何新的罪行。Prater因重大盗窃罪被判8年有期徒刑。

这个就是一个很明显的偏见行为,可能基于的是白人整体犯罪率低,而黑色人种高,所有以至于Prater犯大错却认为是低风险,而Borden一个小事情则被认为高危险,事实上我们很显然可以知道最后的结局以及判定的不合理性

面临以下情况时的自动化偏差
●过度概括

●反馈回路

●相关性谬误

犯罪预测

以色列启动 Faception

Faception是第一个科技领域的率先面市的,专有的计算机视觉和机器学习技术分析人员和揭示他们的个性只基于他们的面部图像。

提供专业的引擎从脸的形象识别“高智商”、“白领犯罪”、“恋童癖”,和“恐怖分子”。

主要客户为国土安全和公共安全。

1856张剪短的脸部照片;包括特定地区的“通缉嫌犯”身份证照片。

“对于非犯罪分子来说,鼻尖到嘴角的角度比普通罪犯小19.6%…”

这个就很歧视了。。。罪犯拍照的时候应该非常不开心吧,这样就说是罪犯特征吗。。。

选择偏差+实验者偏差+确认偏差+相关谬误+反馈回路

预测犯罪-媒体闪电战

媒体总是想着能率先发布最新的一首消息,不仅仅是预测犯罪,各行各业都想要一手资料(尤其是火爆的)

(声称)预测受歧视的内在品质

●Wang和Kosinski,Deep neural networks在从面部图像中检测性取向方面比人类更准确,在2017年。
●“性取向检测仪”使用美国一家约会网站上公开资料中的35326张图片。
●“与性取向的产前激素理论(PHT)相一致,男同性恋者和女同性恋者往往具有非典型的性别面部形态。”在自拍中,同性恋和异性恋之间的差异与打扮、表现和生活方式有关,也就是说,文化差异,而不是面部结构的差异

这个也是一种偏见,因为人在社交媒体上表现出来的可能并不是她/他的日常生活,就类似参加舞会的时候穿的很好、很贵的高端衣服,但是平时这个人可能穿朴素的休闲服等·~

 

男女同性恋和异性恋在自拍中的区别与打扮、表现和生活方式有关,也就是说,文化上的差异,而不是面部结构上的差异。

看看我们在媒体上的长时间回应,“算法是揭示性取向还是暴露我们的刻板印象?”

选择偏差+实验者偏差+相关谬误

测量算法偏差

我们能找到一个很好的评价方案吗?

评估公平性和包容性

分类评估

  • 为每个创建(子组,预测)对
  • 跨子组比较
  • 例如 
    • 女性,面部检测
    • 男性,面部检测

交叉评估

  • 为每个创建(子组1,子组2,预测)对。跨子组比较
  • 例如 
    • 黑人女性,面部检测
    • 白人,面部检测

公平与包容评价:混淆矩阵

蓝色部分为各类指标数

“机会平等”公平准则:子组的 recall 是相等的

“预测平价”公平准则:子组的 precision 是相等

选择评价指标的可接受的假阳性和假阴性之间的权衡

具体选择哪种指标?可以都进行测量,然后选择效果更好的,实际中要根据问题和我们更关注哪个指标。

根据假阳性和假阴性之间可接受的折衷选择评估指标

假阳性可能比假阴性好,例如在图像隐私中

  • 假阳性:不需要模糊的东西会变得模糊。可能会很糟糕。
  • 假阴性:需要模糊的东西不是模糊的。身份盗窃。

 

假阴性可能比假阳性更好,例如在垃圾邮件过滤中
假阳性:垃圾邮件不会被捕获,所以你会在收件箱中看到它。通常只是有点烦人,但不会有大问题。
假阴性:标记为垃圾邮件的电子邮件已从收件箱中删除。如果是朋友或爱人送的,那就是损失!(我可能当场被打s...开个玩笑~)

人工智能会无意中导致不公正的结果

●缺乏对数据和模型中偏差来源的洞察

●缺乏对反馈回路的洞察

●缺乏仔细、分类的评估

●解释和接受结果时的人为偏见

这取决于我们如何影响人工智能的发展

刚刚也说了嘛~主要是人存在偏见导致的~

开始寻找伦理人工智能进化的路径:今天->找到给定任务、数据等的局部最优值->发表论文,推出产品->获得论文奖,成名->产生人类及其环境的积极成果

我现在感兴趣的工作怎么才能最好地专注于帮助别人呢?

这里有一些我们可以做的事情。

数据真的非常重要~!

  • 了解您的数据:偏差,相关性
  • 从类似的分布放弃单一训练集/测试集
  • 结合来自多个来源的输入
  • 对于困难的用例使用held-out测试集
  • 与专家讨论其他信号

了解数据偏差

这个视频是可以点开的,查看各种图片的偏见/偏差,网站:http://pair-code.github.io

没有一个数据集是没有偏差的,因为这是一个有偏差的世界。重点是知道是什么偏差。在论文中不仅仅提供数据集,更需要告诉我们数据集是谁标注的,以及教育背景等细节信息,虽然数据集存在偏见,但是我们需要知道是什么样的偏见~

使用ML/机器学习技术来减轻和包含偏差

Bias Mitigation/偏差缓解(不偏不倚)

  • 删除有问题的输出的信号 (方法一)
    • 刻板印象
    • 性别歧视,种族歧视,*-ism
    • 又称为“debiasing”

Inclusion

  • 添加信号所需的变量 (方法二)
    • 增加模型性能
    • 注意性能很差的子组或数据片

多任务学习提高包容性

多任务+深度学习包含:多任务学习示例(判断临床病人的自杀倾向)
●与UPenn WWP合作
●直接与临床医生合作
●目标:
            ○当自杀未遂迫在眉睫时,可向临床医生发出警报的系统
            ○当培训实例很少时诊断的可行性

实验数据集合的来源:

  • 内部数据
    • 电子健康记录 
      • 病人或病人家属提供
      • 包括心理健康诊断,自杀企图,竞赛
    • 社交媒体数据
  • 代理数据
    • Twitter 媒体数据 
      • 代理心理健康诊断中使用自称诊断 (用正则进行提取,如下特征)
        • 我被诊断出患有 X
        • 我试图自杀

单一任务:深度学习

多任务基本Logistic回归分析

使用多个逻辑回归进行判断,提供临床结果,也可使用多任务学习进行嘛,如下

多任务学习

多任务,考虑到发病率、性别等,因此多任务学习实际上对于临床领域的合并症来说是完美的。所谓合并症是:当你有一个条件时,你可能拥有另一个。例如有人创伤后应激障碍更容易出现焦虑和抑郁

提高了子组的性能

明显多任务取得了更好的效果,相比于单任务和逻辑回归模型

为读者读书。。。。

我们采取的方法之一是:语境化和考虑发布这种技术的道德纬度,因为这个容易歧视别人,例如面试中判断出你有自杀倾向,必然会影响结果

对抗性多任务学习减轻偏差

多任务对抗性学习

有个生成,一个负责预测主要任务,另一个负责预测我们没有的东西,想要影响我们的模型。一个是完成我们关心的任务,另一个是移除信号。

监督学习中的机会均等

上述例子就是监督学习中的机会均等一个例子,正在付诸实践~

一个分类器的输出决策应该在敏感特征上是相同的,只要给出正确的决策。

案例研究:对话人工智能毒性(?感觉翻译的有点不太好)

谷歌正在实践的一个消除偏见的项目

  • Conversation-AI
    • ML 提高在线对话的规模
  • Research Collaboration
    • Jigsaw, CAT, several Google-internal teams, and external partners (NYTimes, Wikimedia, etc)

网址:http:// perspectiveapi.com

意外偏差

模型错误地将频繁攻击的身份与毒性联系起来:假阳性偏差

同性恋的分数/毒性特别高,这并不是我们想要的,往往是因为数据集失衡导致的,如下

偏差源和缓解

  • 偏见造成的数据不平衡
    • 经常袭击了有毒的身份所占比例评论长度问题
  • 添加维基百科文章中假定的无毒数据来修复这种不平衡
    • 原始数据集有127820个例子
    • 4620个补充的无毒例子

测量非预期偏差-合成数据集

真实数据的挑战:

  • 现有数据集较小和/或具有虚假相关性
  • 每个例子都是完全独特的:不容易比较偏差

方法:“bias madlibs”:综合生成的“模板化”数据集用于评估

假设

数据集可靠:

  • ○与应用类似的分布
  • ○忽略标注偏见
  • ○无因果分析

深度学习模式

  • ●CNN架构

  • ●预训练手套嵌件

  • ●Keras实施

(下列内容不是很东西~)

测量模型性能


这个模型在区分好的和坏的例子方面有多好?(ROC-AUC)
AUC(对于给定的测试集)=给定两个随机选择的示例,一个在类中(例如一个有毒,另一个没有),AUC是模型给类内示例更高分数的概率。

上图为更高评分的无毒样例

偏差类型

低分组绩效
该模型在子组注释上的性能比在总体注释上的性能差。
指标:子组AUC

偏差类型

子组移位(右)
该模型系统地给来自分组的评论打分更高。
指标:BPSN AUC
(背景阳性亚组阴性)

 

偏差类型

子组移位(左)
该模型系统地对来自较低分组的评论打分。
公制:BNSP AUC
(背景阴性亚组阳性)

各类指标结果~

在开发的时候记住最后一件事情,努力的创造更深层次、更好的模型然后负责任的发布

目前还没有一个通用的做法来报告模型发布时的工作情况

  • What It Does 
    • 一份关注模型性能透明度的报告,以鼓励负责任的人工智能的采用和应用。
  • How It Works 
    • 这是一个容易发现的和可用的工件在用户旅程中重要的步骤为一组不同的用户和公共利益相关者。
  • Why It Matter 
    • 它使模型开发人员有责任发布高质量和公平的模型。

这是讲师的一些在努力项目,大量不同的人成为模型报告模型卡,更侧重于有关模型的信息,抓住/包括了模型的作用、如何工作的、为什么重要。实际上我们可能需要通过它来了解不同子群体中的工作原理,必须了解数据告诉我们的内容。下面就是一个例子的细节,如下

谁开发的、用途是什么、因素、账户、风险、收益、警告、建议、偏见等

分类交叉评价

然后是定量的关键组成部分,上述是交叉和分解的评估,从这里开始可以轻松的获得不同类型的公平定义 ,越接近亚组的评价,就越接近数学上公平的东西

期望我们在开发时考虑我们所学到的东西~道德ai

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值