[文献阅读]—Language Models are Good Translators

前言

在这里插入图片描述
论文地址:https://arxiv.org/abs/2106.13627

前人工作&存在问题

encoder更有效:TSN19去掉了encoder-decoder中的encoder,发现encoder对于NMT是很关键的;WLX+19和WTSL20发现增大encoder的容量比decoder更有效。但还是基于encoder和decoder的架构。

encoder和decoder的对齐:KBCF19发现多语言NMT中encoder和decoder的边界是模糊的;HTX+18共享了encoder和decoder的参数。但还是基于encoder和decoder的架构,encoder用于编码,decoder用于生成,而损失函数仅仅放在了decoder端。

使用语言模型:GPT-3需要in-context prefixes来完成单LM的机器翻译。但模型过于庞大,需要太多的资源去训练。

本文贡献

  • 提出了单个语言模型用于机器翻译的方法
  • source端的损失函数和统一的向量空间,得到了更好的迁移结果

具体方法

语言模型建模给定前t个单词,预测第t+1个单词的条件概率。
encoder-decoder NMT中,encoder用于特征的抽取,decoder可被视为一个给定source端句子,和target端前t个单词,预测target端第t+1个单词的条件概率。
最近的工作表明,单个语言模型在大规模语料上预训练,可以作为一个好的特征抽取器,但如果要用于NMT,该语言模型不仅作为特征抽取器,还需要作为一个生成器,这样的性能还没有被很好的调查。
本文使用单一的语言模型,同时建模source端的条件概率,和给定source端,target端的条件概率,概率如图1所示。
在这里插入图片描述

图1 LM3MT建模的概率

损失函数如图2所示。可以看到,source端的条件概率可以被理解为一个AE的loss,target端的条件概率就是传统的机器翻译损失函数。
在这里插入图片描述

图2 LM3MT的损失函数

还引入了一个可变参数,使得模型在训练前期更加关注于 L A E L^{AE} LAE,后期更加关注于 L M T L^{MT} LMT。图3中的 λ d λ_d λd前期大,后期小。
在这里插入图片描述

图3 改进的损失函数

具体来说,对于一对平行的句子: x 1 , x 2 , . . . x n 和 y 1 , y 2 , . . . y m {x_1,x_2,...x_n}和{y_1,y_2,...y_m} x1,x2,...xny1,y2,...ym,本文把它们拼接在一起,同时分别在X和Y前面加上language tags(我理解就是额外有一个language embedding,通过不同的language idx进行索引,取出language向量)。

在这里插入图片描述

图4 LM4MT训练输入输出

具体实验

使用数据:

  • En-Ro:
    • train:WMT16
    • dev:news-dev2016
    • test:news-test2016
  • En-De:
    • train:WMT14
  • En-Fr
    • train:?
      En-De和En-Fr的验证、测试集分别是news-dev2013和news-test2014??

language tag是否有效?

有效,我理解的是在inference阶段,一旦给模型送入了target language tag,模型从大量的训练样本中已经学会:接下来要开始翻译target语言了。而为什么不加language tag也能够work?可能在这种情况下,source端句子的末尾会加上终止符?也起到了提醒模型的效果。
在这里插入图片描述

图5 language tag是否有效?

transformer的层数影响?

由于没有encoder,LM4MT为达到和encoder-decoder同样的参数数量,可以增加transformer的层数,性能提升,如图6所示。
在这里插入图片描述

图6 transformer层数的影响

AE的作用?

为了证实AE能够帮助模型更加好地理解source端的句子,实验采用了source-original sentence(source-original指的是由source端语种的母语人写得,更加难被理解、翻译)来评测。

在这里插入图片描述

图7 AE的作用

直观的翻译效果?

不管是在低、中、高资源,还是使用小、大模型,LM4MT都好。
在这里插入图片描述

图8 直观的翻译结果

模型鲁棒性?

随着缺词率的增大,LM4MT的优势更加突出。可能的原因是:AE的损失函数帮助模型更好地理解source端的句子,甚至完成语义的重构(训练时,是否可以考虑给source端句子加噪?即,AE->DAE)
在这里插入图片描述

图9 模型鲁棒性

模型的迁移能力?

Pivot-Based Translation是指:当language1 -> language2存在,language2 -> language3存在时,模型不需要在language1 -> language3上直接训练,就能够完成翻译。具体来说,训练阶段,模型分别在<[l1] xxx [l2] xxx>和<[l2] xxx [l3] xxx>上训练。在推理阶段,模型首先输入[l1] xxx [l2],翻译得到language2,然后输入[l2] xxx [l3],翻译得到language3。
由于LM4MT使用同一个LM编码language1和language2,又给language2和language3进行编码,使得language1和language3间接地被对起到了相同的向量空间中。实验中l1l2l3分别是De、En和Fr。图10给出了实验结果。除了language1->language3的直接翻译结果,为了说明LM4MT在pivot-based NMT上的性能提升不是来自于l1->l2, l2->l3的级联提升,而是来自于统一的LM模型使得l1和l3完成了间接的对齐,也进一步说明source和target能够被对齐,l1->l2, l2->l3的性能也被给出,可以看到LM4MT对于l1->l2, l2->l3的性能提升并不是很大。
除了l1->l2->l3,也实验了l3->l2->l1。
在这里插入图片描述

图10 pivot-based translation

Zero-Shot Translation则更进一步,在en->de, de->en, en->fr, fr->en上训练,然后在en->de, de->en, en->fr, fr->en上(multilingual)、de->fr, fr->de(zero-shot)上测试。结果如图11所示,可以发现:虽然在multilingual上,LM4MT没有太大优势,但是它能够为没有出现的source和target对,完成更好的对齐。
在这里插入图片描述

图11 zero-shot translation

zero-shot translation经常出现的错误是,容易把source翻译成错误语种的target(off-target translation issue)。于是可以使用外部的language detection来检测模型翻译出来的语种是否正确,图12发现,LM4MT更好。在这里插入图片描述

图12 语种检测

既然LM4MT能够翻译出更准的语种,那么它性能上的提升是不是完全来源于这个?图13表明,就算是在正确语种上的结果,LM4MT的性能也更好。

在这里插入图片描述

图13 在正确语种上的结果

模型强大的迁移能力来源于哪里?

图14表明,模型强大的迁移能力很大程度上来源于AE的loss,encoder+decoder的模型只关注于target端的loss,而LM4MT同时关注了source和target。
在这里插入图片描述

图14 AE loss的作用

结论

  • AE的损失函数能够帮助模型更好地理解source语言本身,同时额外的source端监督使得模型同时考虑source和target,更好地完成了向量空间的对齐。而encoder-decoder只能关注target。

问题

  • 训练时,是否可以考虑给source端句子加噪?即,AE->DAE
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Zotero翻译器是一种用于将网页内容转换为可用于引用和参考的格式的工具。它可以自动检测网页上的元数据,并将其转换为适当的引用格式。Zotero翻译器支持多种语言和格式,包括APA、MLA、Chicago等。它是一个非常有用的工具,可以帮助学生和学者更轻松地管理他们的引用和参考文献。 ### 回答2: Zotero是一款非常受欢迎的免费文献管理工具,许多学者、研究人员和学生都在使用它来管理和组织自己的文献。其中一个Zotero的非常重要的功能是其能够在互联网上自动导入参考文献信息和全文,这项功能的核心就是Zotero的翻译器(translators)。 翻译器是Zotero中非常重要的一个功能模块,其主要作用是允许用户轻松地导入在线出版物中的元数据信息或全文。一般而言,当用户点击Zotero浏览器插件上的下载按钮时,Zotero会根据用户所处的页面或者路径自动调用相应的翻译器进行元数据或者全文的导入。Zotero中有一大批翻译器,涵盖了各种各样的在线出版物、数据库、搜索引擎等,让用户可以快速、轻松地从各种不同来源导入文献信息和全文。 Zotero的翻译器工作原理比较智能和高效。例如,当用户在访问在线出版物的页面时,Zotero的翻译器会自动识别出该页面上的相关元数据信息,如作者、标题、出版商、出版日期等,然后把所有这些信息整合到一个标准化的参考文献条目格式中。此外,翻译器还可以从网页上自动捕获全文、PDF、图像等文件,并将其存储在用户的文献库中,在不需要打开文献原文件的情况下,用户即可通过Zotero查看、管理、分享文献。 总体来说,Zotero的翻译器为用户提供了一个非常方便、强大的文献管理工具,并让用户从毫不起眼的网站或者数据库中收集到大量的有用文献,这从根本上提高了研究效率和可行性。 ### 回答3: Zotero Translators是一个非常方便的工具,用于从网页中自动提取引用信息。它是Zotero参考管理软件的重要组成部分。 Zotero Translators的使用非常简单,只需安装Zotero扩展程序并在浏览器设置中启用即可。当您在浏览器中看到一个有用的学术文献时,只需单击Zotero图标,它将自动提取所有必要的元数据,如标题、作者、日期、出版物和来源,并将其保存到Zotero库中。 Zotero Translators支持超过500个不同的网站,涵盖了几乎所有的学术领域,包括人文学科、社会科学、自然科学和医学等。它能够自动识别不同的出版物类型,如书籍、期刊文章、会议论文、报告和网页等,并将它们分配到正确的Zotero项目中。 Zotero Translators不仅可以节省时间和精力,还可以减少错误率。它可以自动获取正确的引文格式(如APA、MLA、Chicago)并格式化参考书目,从而确保准确和一致性。 总之,Zotero Translators是一款非常有用的工具,可以提高学术工作效率,减少出现错误的概率。如果你从事学术研究,那么不妨一试。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值