[文献阅读]—Unsupervised Neural Machine Translation with Universal Grammar

前言

在这里插入图片描述
论文地址:https://aclanthology.org/2021.emnlp-main.261/

前人工作&存在问题

UNMT:使用iterative BT来构造伪并行语料,而BT所产生的并行语料质量是UNMT训练的一个关键。

UG(universal grammar):不同语种的句子共享句法结构,可能会给UNMT训练带去更好的监督。

  • 共享constituent label
    在这里插入图片描述
  • constituent label的重叠(overlap)
    在这里插入图片描述

MLM:mlm可以和句法结合起来(constMLM)。

本文贡献

本文提出的CONSTMLM方法,在UNMT训练阶段,引入了对constituent的mask,让模型去预测mask的单词,并预测constituent label,从而加强UNMT训练对encoder-only\encoder-decoder监督;为解决太长的span mask丢失太多有效信息的问题,本文又提出CONSTBTLM方法,通过把BT翻译出来的句子作为额外的输入,来弥补信息的确实,从而扩大可以mask的span长度。

具体方法

CONSTMLM:
在这里插入图片描述

图1 CONSTMLM

CONSTBTLM:
在这里插入图片描述

图3 CONSTBTLM

masked span的选择:个人理解:对于一个句子,先用constituent parser构造tree,然后得到m个节点,然后根据长度比例r过滤掉太长的span。

具体实验

和其它一些UNMT baseline的比较

如图4所示,CONSTBTLM效果最好。而且,constituent label重叠较高的语言对的提升更大。

在这里插入图片描述

图4 和其它一些UNMT baseline的比较

利用句法的信息加强监督 是否和 利用并行语料来做半监督 起到了相同的作用?

如图5所示,个人理解:constituent trees的增多,同一个句子的tree版本就增多,经过mask
,更多的带有span mask的样本可以被用于采样。constituent信息带来了更多监督。
在这里插入图片描述

图5 句法 vs 并行语料

span过滤长度

随着r增大,更长的span得到保留,用于mask。CONSTMLM的性能随之下降,而CONSTBTLM由于BT带来了更多的信息,能够容纳更长的masked span。

在这里插入图片描述

图6 span过滤长度

单词对齐

既然文章重新训练了XLM,得到的UNMT效果也不同,那为什么表中的XLM结果还是更原文一样?可能的解释是:图4中重新训练的XLM指的是load XLM权重,重新训练的UNMT;而图7中的XLM没进行UNMT的训练。
在这里插入图片描述

图7 单词对齐

在训练UNMT时,不同的span mask策略、训练目标

考虑其它两种策略:

  • LIMIT-BERT:不做consituent label的prediction
  • SPANBERT:在LIMIT-BERT的基础上,constituent span mask

如图8所示,LIMIT-BERT差是因为:预测constituent span是costly的(?),对于同一个句子的同一个syntactic parse tree,不同的constituent的mask带来了不同的样本,不同的样本有不同的constituent label,而如果不去预测之,模型的性能会被限制(?)
在这里插入图片描述

图8 不同的span mask策略、训练目标
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值