ACL 2022：评估单词多义性不再困扰？一种新的基准“DIBIMT”

最新推荐文章于 2024-07-17 21:40:42 发布

数据实战派

最新推荐文章于 2024-07-17 21:40:42 发布

阅读量416

点赞数

分类专栏： AI 文章标签：机器翻译人工智能自然语言处理 ACL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shujushizhanpai/article/details/124943119

版权

研究团队提出了DIBIMT，一个用于衡量机器翻译中词义消歧偏误的新基准，针对五种语言组合进行广泛的分析。DIBIMT通过注释和分析揭示了翻译模型的局限性，特别是在处理多义词时的偏差。实验表明，尽管有进步，但NMT模型仍然倾向于选择训练中更常见的词义，未来研究需关注这一问题。

摘要由CSDN通过智能技术生成

在这里插入图片描述

众所周知，单词多义性给NLP领域的研究带来了诸多困难，如词义消歧（Word Sense Disambiguation）、信息检索（IR, Information Retrieval）和机器翻译（MT, Machine Translation）等等。

而词汇歧义（Lexical Ambiguity）无疑是机器翻译领域面临的最大挑战之一。

在过去的几十年里，研究者也一直致力于调查由单词的多义性引起的错误翻译。在此研究范围内，一些研究认为模型能够学习接纳训练数据中存在的语义偏差，从而产生翻译错误。

实际上，最新的研究发现，训练数据中的语义偏差与翻译中的语义错误之间存在直接关联。

但是这些发现受到以下限制：

并非完全基于人工制定的基准；

严重依赖于自动生成的资源来确定翻译的准确性；

```
不包含多种语言组合。
```

而在 DIBIMT: A Novel Benchmark for Measuring Word Sense Disambiguation Biases in Machine Translation 这项工作中，这支研究团队解决了上述缺点，并提出了DIBIMT。据所知，这是首个完全人工制定的评估基准。

它能够广泛研究语义偏差对MT的五种不同语言组合的影响，涵盖名词和动词。这五种语言组合分别是英语和下列一种语言中的一种：汉语、德语、意大利语、俄语和西班牙语。该基准不仅可以让社区更好地探索所描述的现象，还可以设计出更好地处理词汇歧义的创新MT系统。

此外，团队还在最新测试平台上测试最前沿的MT系统（包括商业和非商业），并对测试结果进行了全面的统计和语言分析。值得一提的是，这项研究也获得了2022 ACL best resource paper。

构建过程

DIBIMT基准侧重于检测NMT中的词义消歧偏差，即某些词对其一些更常用词义的偏差。创建这样的数据集需要做到以下两点：

1)一组包含多义词且语法正确的句子；

2)将每个目标词翻译成所涵盖语言的一组正确和错误的翻译，如图1所示。

最低0.47元/天解锁文章

数据实战派

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
ACL 2022：评估单词多义性不再困扰？一种新的基准“DIBIMT”

众所周知，单词多义性给NLP领域的研究带来了诸多困难，如词义消歧（Word Sense Disambiguation）、信息检索（IR, Information Retrieval）和机器翻译（MT, Machine Translation）等等。而词汇歧义（Lexical Ambiguity）无疑是机器翻译领域面临的最大挑战之一。在过去的几十年里，研究者也一直致力于调查由单词的多义性引起的错误翻译。在此研究范围内，一些研究认为模型能够学习接纳训练数据中存在的语义偏差，从而产生翻译错误。实际上，最新.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。