“任期”已近20年，这个AI训练工具有点儿问题

本文链接：https://blog.csdn.net/duxinshuxiaobian/article/details/108603388

一个广泛使用的AI训练数据集CoNLL-2003存在性别偏差，男性名字比女性名字多近五倍。这导致在命名实体识别（NER）中，模型可能对女性名字识别较差，影响到AI在识别和分类文本中的性别均衡。该数据集被广泛引用，其偏差可能潜移默化地影响众多算法和系统，加剧性别歧视问题。研究人员指出，改善数据集的代表性仅是解决之道的一部分，还需要跨学科合作，让更多边缘化群体参与工具的开发和对话，以消除潜在的滥用和危险。

摘要由CSDN通过智能技术生成

全文共4677字，预计学习时长12分钟

图源：unsplash

Fien de Meulder和她的同事ErikTjong Kim Sang在安特卫普大学从事语言技术工作。在2003年的学术界，每周60工时是很普遍的。为了保持清醒，她大口喝着可乐。夜复一夜，DeMeulder坐在她的Linux电脑前，从摘自路透社新闻专线文章的句子里标记出人物、地点和组织的名称。

她的目标是开发一个开源数据集，帮助机器学习（ML）模型学习识别和分类文本中的实体。当时，属于自然语言处理的命名实体识别（NER）方兴未艾。它建立在“人工智能获取文本含义的关键在于会识别人物、地点和组织”这一观点之上。

因此，例如在分析一段包括“玛丽·巴拉”、“通用汽车”和“底特律”的文本时，一个由这些类型的数据集训练出的系统可能能够推断出此人（玛丽·巴拉）与公司（通用汽车）有关联，或者在某地（底特律）生活或工作。

2003年，整个过程都集中在监督机器学习上，或者说在以前手工标注的数据中训练过的ML模型上。为了让人工智能“学习”如何进行这类分类，人类给人工智能展示分类的例子，之后人工智能经过繁杂的工作对这些例子再次进行分类。

工作中，Tjong Kim Sang和deMeulder并未过多考虑偏差问题。当时，很少有研究团队考虑数据集的代表性。但是，他们正在创建的数据集——CoNLL-2003——在一个重要方面是有偏差的：由数据标注公司ScaleAI最近与一家媒体独家共享的一项实验表明，在他们标注的大约2万个新闻专线句子中，男性的名字多于女性的名字。

CoNLL-2003很快就成为最广泛使用的构建NLP系统的开源数据集之一。在过去的17年里，它在研究文献中被引用了2500多次。很难确定CoNLL-2003所使用的具体商业算法、平台和工具，麻省理工学院助理教授、麻省理工学院语言和智力小组成员JacobAndreas博士说：“公司往往对它们用来构建模型的培训数据守口如瓶。”

但CoNLL-2003数据集被广泛认为是同类中最受欢迎的一个，它经常被用于建立金融服务和法律等行业的通用系统。直到今年2月，才有人量化它的偏差。

Scale AI通过使用它自己的标签管道（曾用于教导人类对分类数据的过程和技术，后来又用于训练算法）发现，通过公司自己的分类，“在CoNLL-2003中，提到‘男性’的名字的次数几乎是提到‘女性’名字次数的五倍。不到2%的名字被认为是‘中性的’。”

图源：unsplash

Scale AI测试过一个使用CoNLL-2003训练过的模型，该模型在一组单独的名单上漏掉一个新女性名字的可能性比漏掉一个新男性名字高出5%（差异十分显著）。报道还称，当该公司用美国普查数据（每年最受欢迎的100个男性和女性姓名）测试该算法时，该算法对“普查中所有年份”的女性姓名表现得“明显更差”。

所有这些都意味着，在CoNNL-2003上训练过的模型，不仅在面对当时数据集中的名称时会出现问题，在将来也会出现问题，而且随着时间的推移，它的表现得可能会愈来愈差。

它在面对女性名字时已经出现了较大麻烦，以后识别少数族群、移民、年轻一代以及20年前新闻不常报道的任何其他群体的更常见的名字时，情况可能会更糟糕。

直至今日，CoNLL-2003仍用于评估一些最常用的语言系统——“单词嵌入”模型。这种模型将单词转换成人工智能可以理解的含义和语境，包括了如BERT，ELMo，和GloVe等的基本模型。反过来讲，受CoNLL-2003影响的所有事物又会产生其自己的连锁反应，例如在谷歌学术的文献中，GloVe被引用了15000多次。

Scale AI的创始人和首席执行官AlexandrWang将ML描述为“卡牌堆砌的房子”，因为堆砌迅速，以至于下面的基础坚固与否并非总是显而易见。数据集的连锁反应和其偏差都是不可估量的。想象一把微微弯曲的尺子，却被视为测量的通用标准。

在采访中，业内专家一直提及CoNLL-2003。他们的措辞反映了它的影响力：基准！评分系统！尺度！近20年来，它一直被用作无数种算法的构成要素或磨刀石。

Tjong Kim Sang说：“如果有人发明了一个新的机器学习系统，他们将会用来测试该系统的数据集之一——就是这个CoNLL-2003数据集，这就是为什么它如此受欢迎。因为不管人们在2005年、2010年、2015年还是2020年制造新产品，他们都会使用这个数据集。”

如果一个算法在CoNLL-2003上运行后表现良好，这意味着它对实体的分类方式与人类的分类方式非常吻合，那么它就是成功的——且是该领域的一个开创性成果。但事实上，如此出彩地通过这样一个测试是存在问题的：这意味着该模型的建立会强化数据集的一些初始偏差。那下一个模型会怎样呢？如果新模型表现更好，那么它可能更加符合数据集的初始偏差。

图源：unsplash

数据科学家、科技教育和数据科学公司DataedX的首席执行官BrandeisMarshal博士说：“我认为‘偏差’是一种委婉的说法，使用的词是多种多样的：有公平，有责任，有算法偏差，有很多术语。但实际上，它一直围绕着真正的主题——数据与生俱来地根植于系统式种族主义和性别歧视。”

在OneZero的采访中，CoNLL-2003的主要创建者并不反对他们的数据集有偏差的观点。DeMeulder、Tjong Kim Sang和WalterDaelemans博士（当时团队的主管）当时没有意识到多少偏差，尤其是从他们为一个特定的“共享任务”创建了数据集之后。这个任务是让不同的小组在加拿大的一个会议之前在同个数据上测试他们的算法性能的练习。

“只有这些系统用在了不同的数据集，这种偏差才愈加明显。”deMeulder在后续采访中写道。

事情已然发生。在CoNLL-2003上训练后，系统的偏差可能简单到例如你的虚拟助手误读“打电话给Dakota”的指令，然后拨打给了一个地方而不是一个人，又或是不知道你想通过Spotify或GooglePlay收听哪个歌手。也许你正在查找一位著名的女演员、艺术家或运动员，而在你的搜索结果中并没有弹出一个专门的界面，这会让她们失去被认识的机会和认可度。

“正是这种微妙的，普遍的偏差，可以潜入许多现实世界的系统，”负责ScaleAI学术的JamesLennon在他的报告中写道。

Andreas说：“如果你识别不出人的名字，那么这些人就会被各种重要的自动化系统视而不见。这使得谷歌用户体验不佳：更难将他们的名字从自己的地址簿中区分出来；更难为用户构建这些漂亮、专门的用户界面。”

这种偏差也会导致由于识别或删除缺失而产生的问题。许多算法通过分析新闻报道、社交媒体帖子和留言板，确定公众对某个话题的看法，或为决策者和股票交易员确定新的趋势。

卡内基梅隆大学语言技术学院副教授Graham Neubig博士在给OneZero的邮件里写道：“假设有投资者根据‘社交媒体风声’（即该公司或该公司任何高管在社交媒体上的提及次数）确定要投资的公司，那么在这种情况下，如果一个NER系统无法识别任何一位高管的姓名，这种‘风声’就不会被记录，该公司更不可能吸引投资注意力。”

Daelemans认为，人们仍然将他的团队的数据集作为基准是“有点懒惰”。计算语言学已经取得了进步，但CoNLL-2003仍是新的模型最新最好的简单证明。建立一个更好的数据集意味着将人力投入到手工标注句子这一乏味的任务上，但比起2003年，现在这个任务可以更快地完成，且要的例子更少。

Daelemans表示：“以一个新的、更平衡的数据集为基准其实不需要很多精力，但现在大家的重点都在于找下一个最好的模型，竞争又非常激烈，因此很多研究小组不会愿意花时间做一个更好的数据集版本。”

图源：unsplash

接下来的问题又出现了，一个更好的数据集实际上是什么样子的。

例如，Scale AI对CoNLL-2003偏差的分析也有其自身的问题。比如当涉及如何比较名字类别之间的识别准确度时，Andreas认为，“这个问题本身就是一团乱麻，作为一个女性的名字意味着什么？谁是评判的注释者？对于世界上所有不属于男性或女性但属于其他类别的人又怎么办？谁会不会甚至被排除在这分析之外呢？”（OneZero选择将ScaleAI的“男性”和“女性”类别称为“男性姓名”和“女性姓名”。）

为了完成对CoNLL-2003偏差的分析，ScaleAI没有使用名字周围的代词来推断性别，而是使用了关于名字本身的社会概念。例如，为数据添加标签的人假设，蒂芙尼必须是女性，约翰必须是男性，而亚历克斯属于性别中立类别。

旧金山大学应用数据伦理中心（University ofSan Francisco's Center for applicated Data Ethics）主任RachelThomas博士说，基于任何特征并由外界区分人类性别的ML模型“完全违背了人们自己定义性别的观点”。

Scale AI进行这项实验的兴趣，部分源于其商业模式，这种模式包括客户使用该公司的标签管道来梳理他们自己的数据集，或者他们使用的开源数据，以测量偏差。该公司在初始数据中添加了400多个“女性”的名字后，创建了一个新的开源数据集CoNLL-Balanced。Scale-AI的初步结果表明，新算法面对两性名称时性能相当。

但这仍然不能解决根本问题。专家们在一次又一次的采访中明确表示，增强数据集的代表性仅仅是一种补救——技术界希望用许多方式“为社会问题找到一种技术解决方案”。

在将权重移交给女性、BIPOC和LGBTQ+的过程中，仍有许多工作要做——仅仅重新评估数据集并不能改变现状。根据Marshall和Andreas的说法，继续向前发展需要跨学科的工作：将机器学习领域的佼佼者与人类学、政治学和社会学等领域的佼佼者聚集在一起。

托马斯认为：“数据集的代表性很重要。我担心太多人会认为这只是个独立的问题——比如你平衡了数据集就足够了——而偏差实际上也涉及到所有这些问题，人们正越来越倾向于谈论不同的机器学习模型如何改变权力。”

这种权力错位可能源于创造这些工具的人和那些受其影响的人之间的代表性差距。归根结底，重要的是让边缘化群体的成员参与到这些工具的对话和开发中来，这样他们就可以从根本上发掘危险和潜在的滥用案例。