众所周知,单词多义性给NLP领域的研究带来了诸多困难,如词义消歧(Word Sense Disambiguation)、信息检索(IR, Information Retrieval)和机器翻译(MT, Machine Translation)等等。
而词汇歧义(Lexical Ambiguity)无疑是机器翻译领域面临的最大挑战之一。
在过去的几十年里,研究者也一直致力于调查由单词的多义性引起的错误翻译。在此研究范围内,一些研究认为模型能够学习接纳训练数据中存在的语义偏差,从而产生翻译错误。
实际上,最新的研究发现,训练数据中的语义偏差与翻译中的语义错误之间存在直接关联。
但是这些发现受到以下限制:
-
并非完全基于人工制定的基准;
-
严重依赖于自动生成的资源来确定翻译的准确性;
-
不包含多种语言组合。
而在 DIBIMT: A Novel Benchmark for Measuring Word Sense Disambiguation Biases in Machine Translation 这项工作中,这支研究团队解决了上述缺点,并提出了DIBIMT。据所知,这是首个完全人工制定的评估基准。
它能够广泛研究语义偏差对MT的五种不同语言组合的影响,涵盖名词和动词。这五种语言组合分别是英语和下列一种语言中的一种:汉语、德语、意大利语、俄语和西班牙语。该基准不仅可以让社区更好地探索所描述的现象,还可以设计出更好地处理词汇歧义的创新MT系统。
此外,团队还在最新测试平台上测试最前沿的MT系统(包括商业和非商业),并对测试结果进行了全面的统计和语言分析。值得一提的是,这项研究也获得了2022 ACL best resource paper。
构建过程
DIBIMT基准侧重于检测NMT中的词义消歧偏差,即某些词对其一些更常用词义的偏差。创建这样的数据集需要做到以下两点:
1)一组包含多义词且语法正确的句子;
2)将每个目标词翻译成所涵盖语言的一组正确和错误的翻译,如图1所示。