人工智能算法也许可以面部图像中推断出性取向

一项研究声称,人工智能可以从面部图像中推断出性取向,引起媒体轩然大波。“经济学人”在9月9日杂志的封面上展示了这项工作。另一方面,两个主要的LGBTQ组织,即人权运动和GLAAD,立即将其称为“垃圾科学”。Michal Kosinski与研究员Yilun Wang共同撰写了这项研究,他最初表示惊讶,称这些批评是“junk science”。然而,他接着提出了更大胆的主张:这种人工智能算法很快就能够仅通过他们的面部图像来衡量人们的智力,政治倾向和犯罪倾向。

Kosinski的有争议的主张并不是什么新鲜事。去年,来自国内的两位计算机科学家在网上发表了一份非同行评审论文,其中他们认为他们的人工智能算法正确地将“犯罪分子”从单独的政府身份证照片中准确地归类为近90%。科技初创公司也开始崛起,声称他们可以通过面部图像描绘人物的角色。这些发展促使我们三个人在今年早些时候在一篇中篇文章“面相新衣”上进行合作,以面对人脸识别表明其深刻的性格特征的说法。我们描述了地貌的垃圾科学如何根源于古代,每个时代的实践者都使用新时代的方法论基于偏见的信仰复活。在19世纪,这包括人类学和心理学; 20,遗传学和统计分析;而在21世纪,人工智能。

在2016年底,推动我们的地貌论文的论文似乎远远超出了科技和学术界的主流,但正如在其他话语领域一样,最近感觉像边缘位置的东西现在必须正面解决。Kosinski是斯坦福大学商学院的教员,这项新研究已被人们接受在受人尊敬的人格与社会心理学杂志上发表。随后的审查大部分都集中在道德上,隐含地认为科学是有效的。我们将专注于科学。

作者使用美国约会网站上的公开个人资料中的35,326张图像对他们的“性取向检测器”进行了培训和测试。样本中女同性恋,男同性恋和男性和女性的复合图像显示了该算法可用信息的大量内容:

显然,这四个复合面之间存在差异。Wang和Kosinski断言,关键的区别在于地貌,这意味着性取向倾向于伴随着特有的面部结构。但是,我们可以立即看到其中一些差异更为肤浅。例如,“普通”直女人似乎戴着眼影,而“普通”女同性恋者则没有。在同性恋者身上可以清楚地看到眼镜,在女同性恋者身上可以看到较少的眼镜,而在异性恋复合体中它们似乎不存在。可能的情况是,算法检测方向的能力与面部结构几乎没有关系,但是归结为修饰,演示和生活方式的模式?

我们使用亚马逊的Mechanical Turk众包平台对8,000名美国人进行了一项调查,看看我们是否可以独立确认这些模式,询问77是/否问题,例如“你戴眼影吗?”,“你戴眼镜吗?”和“做你有胡子吗?“,还有关于性别和性取向的问题。结果显示,女同性恋者确实使用眼影的次数远远少于直女,同性恋男性和女性都更多地戴眼镜,年轻的异性吸引男性比同性恋者更容易拥有突出的面部毛发 - 吸引了同行。

按受访者的年龄分解答案可以提供比任何单一统计数据更丰富,更清晰的数据视图。在下面的图中,我们展示了对“你曾经使用化妆品吗?”(上图)和“你戴眼影吗?”(下图)回答“是”的女性比例,平均年龄超过6岁:

蓝色曲线代表严格反对性吸引的女性(与那些对“你是异性恋还是直的?”回答“是”的人几乎完全相同); 青色曲线代表那些对“你是否对女性有性吸引力?”和“你是否浪漫地吸引女性?”中的任何一个或两者都回答“是”的女性。而红色曲线代表对“你是同性恋,同性恋还是同性恋?”回答“是”的女性。[1]每条曲线周围的阴影区域显示68%的置信区间。[2]这里揭示的模式是直观的; 对于大多数人来说,直接的女性往往比同性恋者更多的化妆和眼影,以及(甚至更多)识别女同性恋的女性,这些都不会成为突发新闻。另一方面,这些曲线也向我们展示了这些刻板印象被违反的频率。

同性吸引了大多数年龄段的男性戴眼镜的次数明显多于完全异性吸引的男性可能会有点不太明显,但这种趋势同样明显:[3]

相貌的支持者可能会猜测这与这些人群之间的视敏度差异有某种关系。然而,问一个问题“你喜欢你的眼镜怎样?”这表明这可能是一种风格选择:

同性吸引的女性也报告说戴眼镜更多,并且喜欢他们在各种年龄段的眼镜看起来更多:

人们还可以看到异性吸引女性40岁以下的女性戴隐形眼镜的程度明显高于同性吸引女性,尽管他们报告说他们的视力缺陷大致相同,但进一步说明差异是由 审美偏好:[4]

类似的分析表明,年轻的同性吸引男性不像异性吸引男性那样有毛茸茸的面孔(我们阴谋中的“严重的面部毛发”被定义为对山羊胡子,胡须或小胡子回答“是”, 但是“不”留胡茬)。总体而言,在我们的样本中,异性吸引的男性比同性吸引男性的面部毛发严重的可能性高35%,对于31岁以下的男性(在约会网站上人数过多),这一比例上升至75%。

Wang和Kosinski在他们的论文中推测,他们的同性恋男性复合体中胡须和胡须的模糊可能与产前暴露于雄激素(雄性激素)有关,导致女性化效果,因此更稀疏的面部毛发。事实上,我们看到一群同性吸引了40多岁的男性,他们的面部毛发与异性一样吸引男性,这表明了一个不同的故事,其中时尚潮流和文化规范在面部毛发的选择中起主导作用。在男性中,在发育早期没有不同的激素接触。

这张来自维基百科的同性恋“熊”文化页面的照片,来自2007年的国际熊约会,也不支持同性恋男子天生就有稀疏的面部毛发的论点。

该论文的作者还指出,异性男性复合材料似乎比其他三种复合材料具有更深的皮肤。我们的调查证实,异性吸引男性持续自我报告有一张棕褐色的脸(“是你的脸晒黑”是“是”)比同性吸引的男性更频繁:

王和科辛斯基再次寻求荷尔蒙解释,写道:“虽然面部图像的亮度可能受许多因素驱动,但先前的研究发现,睾丸激素刺激黑素细胞结构和功能导致皮肤变黑”。但是,对“你在户外工作吗?”这一问题的答复提出了一个更简单的答案:

总体而言,异性吸引男性在户外工作的可能性增加29%,而31岁以下男性则增加到39%。以前的研究发现,增加阳光照射会导致皮肤变黑![5]

这些结果都没有证明性取向没有生理基础;事实上,充足的证据表明,取向比选择或“生活方式”更深刻。在一项针对欺诈性“转换疗法”计划的批评中,美国外科医生David Satcher在2001年的一份报告中写道:“性取向通常取决于青春期,如果不是更早[...],并且没有有效的科学证据表明性取向可以改变“。因此,如果我们深入挖掘人体生理学和神经科学,我们最终会找到可靠的相关因素,甚至可能是性取向的起源。在我们的调查中,我们还发现了一些外在可见的非文化取向相关的证据:也许最引人注目的是,非常高的女性在女同性恋认同的受访者中过多。[6]然而,虽然这很有趣,但它远远不是女性性取向的良好预测因素。化妆和眼影做得更好。

Wang和Kosinski测量他们的“AI gaydar”效果的方式相当于选择一个直的和一个同性恋或女同性恋的脸部图像,既从训练过程中“保持”的数据,又询问算法正确猜测的频率是多少哪一个。50%的表现并不比随机机会好。对于女性来说,猜测两者中较高者是女同性恋者的准确率只有51% - 几乎不会超过随机机会。这是因为,尽管在女同性恋人群中,高女性的统计学意义过高,但绝大多数女同性恋者的身高并不高。

相比之下,论文中的表现指标,男同性恋者为81%,女同性恋女性为71%,令人印象深刻。[7]但是,考虑一下,我们可以通过仅基于少数关于呈现的是/否调查问题来获得与琐碎模型相当的结果。例如,对于一对女性,其中一个是女同性恋者,以下不完全超人算法平均准确度为63%:如果没有女性或两个女性都佩戴眼影,则掷硬币;否则猜测戴眼影的人是直的,而另一个女同性恋者。再添加六个关于演示的是/否问题(“你有没有使用过化妆品?”,“你有长头发吗?”,“你有短发吗?”,“你有没有使用过彩色唇膏?”,“你呢?”就像你看眼镜一样?“和”你在户外工作吗?“)因为额外的信号将性能提高到70%。[8]鉴于面部图像中有多少关于演示的细节,71%的表现似乎不再令人印象深刻。

一些研究,包括最近在性研究杂志上发表的一项研究表明,当判断基于在良好控制条件下拍摄的照片时,人类评委的“gaydar”并不比硬币翻转更可靠(头部姿势,照明,眼镜,化妆品等)。如果这些变量不受控制,那么好于机会,因为一个人的陈述 - 特别是如果那个人出局 - 涉及社交信号。我们表达了我们的定位和许多其他类型的地位,大概是为了吸引我们想要的那种关注并适合像我们这样的人。[9]

Wang和Kosinski反对这种解释,理由是他们的算法适用于公开男同性恋者的Facebook自拍以及约会网站自拍。然而,问题不在于图像是来自约会网站还是Facebook,而是它们是自我发布还是在标准化条件下拍摄。大多数人以多年媒体消费校准的方式呈现自己,观察他人,照镜子,并衡量社会反应。在使用社交媒体的最早的“gaydar”研究中,参与者可以将同性恋者的准确率分类为58%;但是当研究人员使用他们的朋友发布的同性恋和异性恋男子的Facebook图片时(仍远未完美控制),准确率下降到52%。

如果人类可以拾取图像质量,表达和修饰的细微偏差,那么这些偏差也可以通过AI算法来检测。虽然王和Kosinski承认修饰和风格,但他们认为他们的合成图像之间的主要差异与面部形状有关,认为男同性恋者的脸更“女人味”(下颚更窄,鼻子更长,额头更大),而女同性恋面孔则更“男性“(较大的下颚,较短的鼻子,较小的额头)。由于同性恋男性的面部毛发较少,直男性的皮肤较深,他们认为这种机制是在发育过程中性别 - 非典型的激素暴露。这与19世纪的同性恋模式 - “性倒错” - 相呼应。

更有可能的是,异性恋男性倾向于从略低于自拍状态,这会产生明显的下巴,缩短鼻子,缩小额头,减弱微笑的效果(请参阅下面的自拍照)。这种观点强调了支配地位 - 或者更为温和的是,观众会更短。另一方面,正如婚礼摄影师在她的博客中所说,“当你从上面拍摄时,你的眼睛看起来更大,这通常很有吸引力 - 特别是对于女性。”这可能是一种异性恋评估。

当从下面拍摄脸部时,鼻孔是突出的,而较高的射击角度不再强调并最终完全隐藏它们。再看一下合成图像,我们可以看到异性恋男性脸部对应于鼻孔的黑点比同性恋男性更明显,而女性面部则相反。这与从下面平均拍摄的异性恋男性的模式,婚礼摄影师建议的来自上方的异性恋女性以及直接在前面的男同性恋和女同性恋女性一致。眉毛中也有类似的图案:从上方拍摄使它们看起来更像V形,但是它们的外形变得更平坦,并且在相机降低时最终形状为(^)。从下方拍摄也会使眼睛的外角看起来更低。简而言之,面部标志的平均位置的变化与我们期望从不同的自拍角度看到的一致。

对于人类观察者和算法而言,拍摄角度与面部特征的真实物理尺寸之间的模糊性难以与二维图像完全解开。虽然作者使用的是人脸识别技术,试图消除头部姿势,光照,修饰以及脸部不固有的其他变量的所有影响,但我们可以确认这种效果并不完美;这就是为什么一个人的多个不同图像在Google照片中按主题分组照片时的帮助,以及为什么一个人最初可能出现在多个组中的原因。

新西兰维多利亚大学的研究员汤姆怀特已经尝试使用相同的面部识别引擎Kosinski和Wang使用(VGG Face),并且发现它的输出根据微笑和头部姿势等变量系统地变化。当他根据VGG Face的输出训练分类器以区分快乐表达与中性表达时,它在92%的时间得到正确的答案 - 这是重要的,因为异性恋女性复合具有更明显的微笑。可以更可靠地检测头部姿势的变化;对于576个测试图像,分类器能够以100%的准确度挑选出面向右侧的分类器。

总之,我们已经展示了自拍中女同性恋或同性恋和直面的明显差异如何与梳理,表达和生活方式有关 - 即文化差异,而不是面部结构。这些差异包括:

  • 化妆
  • 眼影
  • 胡子
  • 眼镜
  • 自拍角度
  • 阳光照射量

我们已经证明,只有少数关于这些变量的是/否问题可以在猜测方向上做得非常好,可以说是复杂的面部识别AI。此外,当前生成的面部识别仍然对头部姿势和面部表情敏感。因此 - 至少在这一点上 - 很难相信这种观点认为,这种AI在某种程度上超人“基于我们面部结构的细微但不可改变的细节而”在外面“。

这并没有否定作者和各种评论家所提出的隐私问题,但它强调这种担忧与人工智能本身的关系要少于大规模监视,无论使用何种技术,这都是令人不安的(即使在在德国东部的斯塔西,这些只不过是纸质文件和录音带。与计算机或内燃机一样,AI是一种通用技术,可用于自动执行大量任务,包括首先不应执行的任务。

我们对新的,强大的人工智能技术与社会科学的融合抱有希望,但并不是因为我们相信复兴19世纪从外表推断人们内心品格的研究计划。相反,我们认为人工智能是理解人类文化和行为模式的重要工具。它可以揭示日常语言中固有的刻板印象。它可以揭示令人不安的真相,就像谷歌与Geena Davis研究所合作一样,我们的面部性别分类器确定男性在好莱坞电影中的观看和听到的频率几乎是女性的两倍(但女性主导的电影在票房上超过其他人!)。没有这些确凿的证据,即使只是证实了我们的怀疑,在社会上取得进步并自我承担责任也更加困难。

论文源码关注微信公众号:“图像算法”或者微信搜索账号imalg_cn关注公众号

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值