应对语言大模型地域偏见，HERB迈出第一步

智源社区

于 2022-12-02 15:55:46 发布

阅读量624

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5ODg0MTAwMw==&mid=2247532409&idx=2&sn=a52e51bc6d35264f259fbc7f021375c1&chksm=febc3cbdc9cbb5ab45db4af61f9b98d7e1a944f310524cf6dd2ee4090ae53ec05b5c341a3f3d&scene=126&&sessionid=0

版权

本文介绍了一种新的评估方法HERB，用于测量语言模型中的地域偏见。通过量化模型对不同地区的刻板印象，该方法揭示了对特定地理区域的歧视性偏差，并验证了其对下游任务的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

如何消除针对某些社会群体的偏见（性别和宗教等）已经成为自然语言处理中的热门话题。然而，另一个长期存在的全球性歧视问题——地区偏见，目前仍然没有得到探索。最近，来自谢菲尔德大学、北京智源研究院以及中科院自动化所的研究者们提出了一个最新评估方法HERB，用于建模语言模型中的地域偏见。

论文地址： aclanthology.org/2022.findings-aacl.32.pdf（本篇为智源社区投稿，研究者来稿请投至editor@baai.ac.cn）

“

案例

英国人都是秃头？欧洲的秃头区域，英国一枝独秀。可以看到Fig 1是世界和欧洲秃头程度的地图，越红说明越秃，从（b）中可以看出英国人秃头的印象世界闻名。

RoBERTa和ALBert的bias算出来指标最高，令人吃惊。Table 1的Overall Bias展示了我们计算出的各个模型的综合地域歧视程度，数值越大，地域歧视越严重。ALBERT和RoBERTa根据我们的模型是地域歧视最严重的模型。

西方语境下对亚非国家的不良印象。Fig.4 展示了增加地区实体在评论中对评论情感识别和仇视语句识别的影响，我们发现增加亚非地区实体，会让评论情感识别和仇视语句识别显著倾向于负面判断，与我们计算出的指标也有相符合之处，这说明了英语语境下对亚非国家的整体负面印象和地域歧视。

“

背景

语言模型中的各种歧视近年来是新兴的热点话题，从赵洁玉教授的Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints开始，一系列针对性别、种族、宗教等各方面的歧视都有人研究，在调研过程中一次偶然的搜索让我们确定了没有人研究过地域歧视。但是对在一个地方生活的人的刻板印象也是一种常见的歧视，甚至于在当下的国际社会，是地方动荡和人们互相难以理解体谅的根源之一。所以我们认为应该补足这方面的缺失。

技术难度上，不同于性别、种族、宗教等涉及到的社会主体种类数目相对有限，地域分层且地域名词数目相当巨大，如何建模这一问题引入了如何考虑分层集群的大量社会主体中的歧视如何定义的问题，我们认为这是一项新的技术难题，也是社区内研究者们需要考虑并且推广到别的歧视研究中的问题。

我们初步提出了基于聚类的离散度来建模地域歧视的方案，引入分层和离散度是这篇工作的核心贡献之一。我们在文章中指出，一个群体越分裂，我们可以认为这个群体的子群体之间的互相的刻板印象更加严重。

“

现有的同行们的研究

我们是第一篇专门建模语言模型中的地域歧视的文章，这是我们文章的核心价值所在。只有少数衡量与国家等地域社会群体相关的语言模型中的偏见的同期工作，如https://aclanthology.org/2022.findings-acl.164.pdf，但是这篇也没有提出一个明确的度量指标。

而衡量其他语言模型中的偏见的论文是非常多的，代表性的研究者包括赵洁玉老师，Kai-wei Chang，...

这里推荐几篇survey：

https://aclanthology.org/2022.naacl-main.122.pdf
https://aclanthology.org/P19-1159.pdf
https://aclanthology.org/2021.acl-long.330.pdf
https://aclanthology.org/2020.acl-main.485.pdf

“

主要贡献

第一个提出了度量语言模型中包含的地域歧视的问题。
基于离散度和分层模型提出了一套语言模型中的地域歧视的指标。
设计了一系列实验验证了我们提出的地域歧视指标的可靠性以及对下游任务的影响，我们是少数提供了这类实验的歧视研究工作之一。我们认为歧视的影响还是要归结到对实际任务的影响中。

“

主要逻辑及原理

我们用于衡量分层区域偏差的HERB指标的关键步骤：

第 1 步：使用未屏蔽的 MLM 分数构建描述性向量。

第 2 步：计算描述向量的稀疏度作为基本偏差。

第 3 步：汇总基本偏差。

步骤 1：为了量化对给定区域社会群体的判断，我们设计了描述性向量 (v)，可用于衡量每个区域 (r) 的偏差。(v) 区域 (r) 由使用提示计算的未屏蔽 MLM 分数组成：“[r] 中的人是 [ ]。”

步骤 2：我们用v空间中子区域簇的稀疏性来表示判断的不一致性。直观上，如果 v 个子区域分布得相距很远，则 LM 更偏向于父区域，因为子区域会收到不同的判断。

步骤 3：然后，我们将区域偏差分数从子区域汇总到高级别区域，即城市-国家-大陆。然后用洲级结果计算总体区域偏差分数。（有关更多详细信息，请参阅我们论文的 §3.3）

“

后续计划&外部如何参与

我们认为这篇工作的后续工作分为几个方向：

1. 地域歧视建模的进一步优化以及如何消除语言模型中的地域歧视。消除语言模型中的地域歧视这一问题，面临着相同的挑战，也就是地域分层且拥有超大数目的地域实体，传统的构建corpus训练的方式不仅耗时时间长而且不一定有效。如何提出新的方法会是个有挑战性的问题。

2. 更综合的歧视指标的定义。我们认为现有的工具，包括我们的HERB都只是建模某一个角度的歧视，影响力颇为有限。怎么样能实现捕捉对语言模型中一个综合身份的社会主体的歧视，会是一个非常有趣的问题。

3. 除了歧视之外，其实我们还可以尝试着去定位社会主体之间的对抗和仇视。这一点在地域歧视中非常明显。虽然没有在文章中呈现，但比如增加爱尔兰人为主体可能会增加对英国人的负面印象；增加其他中东国家为主体可能会增加对以色列人的负面印象。如何调研这种问题并建模会是一个非常好的计算社会学问题。

有关外部参与的问题，我们已经开源了我们的代码：

https://github.com/Bernard-Yang/HERB，

我们会尽快封装并且优化我们的接口，并提供可直接使用的api。

“

参与人员

谢菲尔德大学: 李一之，杨博灏，林成华，Anton Ragni

北京智源研究院: 张舸，付杰

中科院自动化所: 王石

更多内容尽在智源社区