[论文阅读]Deep Encoder, Shallow Decoder: Reevaluating the Speed-Quality Tradeoff in Machine Translation


前言

论文名:Deep Encoder, Shallow Decoder:Reevaluating the Speed-Quality Tradeoff in Machine Translation
论文作者:Jungo Kasai et.al.
机构:
	Paul G. Allen School of Computer Science
	Engineering, University of Washington
	Facebook AI
	Allen Institute for AI
	
期刊/会议名:Arxiv 2020
本文作者:XMU_MIAO
日期:2020/12/1

摘要

  最先进的机器翻译模型自回归地产生输出(每一步基于已生成的输出)。这种顺序解码特性造成了解码延迟。另一方面,非自回归的翻译技术以翻译质量为代价并行生成每个位置上的输出并提高推理速度。近来大量工作致力于非自回归翻译技术,意在达到翻译质量和推理速度的平衡。
  在本文工作中,我们重新探究了这种平衡,并认为transformer-based的自回归模型可以在不损失翻译质量的情况下加速推理。具体地,研究了不同深度encoder和decoder的自回归模型。大量实验表明,给定一个足够深度的encoder,一层的decoder可以产生最先进的精度,并且延迟可与强大的非自回归模型相媲美。
  我们的发现表明,自回归模型的延迟缺点被高估了,这是由于不合理的层分配策略,并且我们为之后的关于更快、更精准翻译的研究提供了一个新的baseline。

一、Introduction

  本文主要探究了自回归(autoregressive)模型和非自回归(non-autoregressive)模型在两个指标( S 1 & S m a x \textbf{S}_1\&\textbf{S}_{max} S1&Smax)上,Transformer模型中编码器和解码器层数分配策略的选择对推理速度和翻译质量的影响。非自回归和自回归下运用了多项技术,包括 CMLM \textbf{CMLM} CMLM DisCo \textbf{DisCo} DisCo Distillation \textbf{Distillation} Distillation等,前两种技术运用于非自回归翻译,后一种技术在自回归和非自回归模型都有应用。
   CMLM : \textbf{CMLM}: CMLM在给定可观察的目标词与源句词,随机预测被掩盖的词
   DisCo: \textbf{DisCo:} DisCo给定其他相关词的子集,预测每一个目标词
   Distillation: \textbf{Distillation:} Distillation序列级别的知识蒸馏,论文可参考:Sequence-Level Knowledge Distillation

二、Experiments

本文衡量翻译延迟性能的两个指标:

  • S 1 \textbf{S}_1 S1衡量的是一次翻译一个句子的速度,其对应的场景是即时机器翻译,可以立即翻译用户输入的文本。
  • S m a x \textbf{S}_{max} Smax硬件允许的范围内,衡量翻译一个 m i n i − b a t c h mini{-}batch minibatch中尽量多的句子时的翻译速度,其对应的是需要翻译大量文本的场景。

其他相关参数设置可参考原论文,本文重点总结论文实验分析和结果部分

三、Results

  结果部分分析了encoder和decoder分配不同层情况下,对自回归翻译模型(AT)和非自回归翻译模型(NAT)在两个指标以及BLUE值的影响,并针对一些情形进行进一步的实验分析,实验中将 T r a n s f o r m e r b a s e Transformer_{base} Transformerbase(6层编码器,6层解码器)作为 b a s e l i n e baseline baseline

  • Deep Encoder,Shallow Decoder(本文只分析一个图表,其余得到图表得到的结果类似)
    表2展示了应用CMLM,DisCo的NAT以及AT的速度-质量之间平衡的情况。 E − D E{-}D ED表示 E E E层编码器和 D D D层解码器。所有的加速比都是与 A T   6 − 6 AT\,6-6 AT66 b a s e l i n e baseline baseline
    在这里插入图片描述
    分析1:
      对于 S 1 \textbf{S}_1 S1指标,标准的6-6下的AT模型相比于NAT在翻译质量上有相当大的优势,但是 S 1 \textbf{S}_1 S1加速比最低。使用单层解码器后,AT 6-1模型在 S 1 \textbf{S}_1 S1获得了 S 1 \textbf{S}_1 S1加速比的提升,但在翻译质量(BLEU)上有所下降。而AT 12-1落在一个较好的平衡点:其翻译质量与AT 6-6相似,但是 S 1 \textbf{S}_1 S1加速比提升了2.5倍。相反,NAT 12-1虽然 S 1 \textbf{S}_1 S1加速比提升了不少,但是翻译质量却显著下降。
      对于 S m a x \textbf{S}_{max} Smax指标,所有的NAT模型都低于AT 6-6 b a s e l i n e baseline baseline,而AT 12-1相比于 AT 6-6 b a s e l i n e baseline baseline在翻译质量和 S m a x \textbf{S}_{max} Smax都有提升。这说明在翻译大量文本时,NAT模型在翻译延迟上不占优势的。

      综上,AT模型在"深编码器,浅译码器"情况下翻译质量与AT 6-6相似,而 S 1 \textbf{S}_{1} S1 S m a x \textbf{S}_{max} Smax两个指标都有所提升,NAT模型在 S 1 \textbf{S}_1 S1指标上相对于AT模型有优势,但是翻译大量文本时(对应 S m a x \textbf{S}_{max} Smax指标)上不占优势。

  • Constrained Views
    该部分的两个控制实验全面对比了NAT模型和AT模型
    ( 1 ) S 1 Latency   Constraint (1)\textbf{S}_{1} \textbf{Latency Constraint} 1S1Latency Constraint
    由分析1可知,相比于NAT模型,“深编码器,浅译码器”下的AT模型能够有一个更好的速度-质量平衡,尽管在某些数据集上 S 1 \textbf{S}_1 S1稍弱,为了证实这个结果,通过控制 S 1 \textbf{S}_1 S1进一步对比了“深编码器,浅译码器”AT模型与两个NAT模型,具体地说:我们用不同编码器深度的NAT模型进行实验,并将每个模型与尽可能多的解码器层配对,直到达到AT 12-1的 S 1 \textbf{S}_1 S1
    在这里插入图片描述
    分析2:
      所有的NAT模型在编码器的深度变大时翻译质量有所提升并且超过了各自的 b a s e l i n e baseline baseline,尽管这样,但距离 AT 12-1模型还有巨大的差距。这表明,两种NAT模型在相同 S 1 \textbf{S}_1 S1情况下,难以达到“深编码器,浅解码器”AT模型的性能。
      

    ( 2 ) Layer   Constraint (2)\textbf{Layer Constraint} 2Layer Constraint
     图4全面考虑了在transformer中编码器层和解码器层数和限制在12时, NAT模型和AT模型的翻译情况。
    在这里插入图片描述
    分析3:
      在解码器层数与编码层数数量相当并且轻微有深度编码器的趋势时,NAT模型表现最好。对于AT模型,在编码器层层数大于等于4时表现差不多。这证实了在AT模型中使用深编码器和浅解码器比在NAT模型中更有效。

  • Effects of Distillation
    将序列级别的知识蒸馏应用在所有的模型上,其中 T r a n s f o r m e r l a r g e Transformer_{large} Transformerlarge作为 t e a c h e r teacher teacher模型
    在这里插入图片描述
    分析4:
      从表5中可以看出所有的模型都通过知识蒸馏获得了性能提升。在原始数据上“深编码器,浅解码器”的AT模型相比于基于迭代的NAT模型在基线(AT 6-6)上性能要恶化得更少。这表明我们的“深编码器,浅解码器”相比于NAT更适合在原始数据上建模。

  • Speedup and Batch Size
    在使用较大的 m i n i − b a t c h mini{-}batch minibatch时,NAT比AT模型慢,为了对此进行进一步研究,图5绘制在硬件条件限制下(“max”),不同模型在每个 m i n i − b a t c h mini{-}batch minibatch中句子数量不同情况下解码的相对速度。
    在这里插入图片描述
    分析5:
      NAT模型的解码速度随着 m i n i − b a t c h mini{-}batch minibatch的增大而减小:当 m i n i − b a t c h mini{-}batch minibatch为50时,它们的解码速度与AT 6-6模型相似,而当 m i n i − b a t c h mini{-}batch minibatch较大时,解码速度会变慢。相反,“深编码器,签解码器”达到与 AT 6-6 基线模型一致的解码速度。

三、Conclusion

  本文大量的实验证实,通过简单的层分配策略:深编码层,浅解码层,可以显著加速自回归编码器翻译速度。与强大的非自回归模型相比,“深编码器,浅解码器”自回归模型在翻译延迟相当的情况下实现了翻译质量的显著提高。
  我们的结果表明,编码器和解码器的层分配策略是对快速机器翻译方面的工作是一个重要的考虑因素,特别是非自回归机器翻译,更一般地,我们的工作表明,编码器和解码器之间更好的层分配可能能够加速任何序列到序列任务的推理,带有深编码器和浅解码器的模型可以用于序列生成的大规模预训练,如BART 等,其中延迟减少将是现实世界广泛应用的关键。

总结

  本文的工作通过大量实验探究了NAT模型和AT模型中解码器层与编码器层分层数配策略对翻译性能(BLEU)与翻译延迟( S 1 & S m a x \textbf{S}_1\&\textbf{S}_{max} S1&Smax),实验证明:“深编码器-浅解码器”的层分配策略可以显著加快自回归翻译模型的翻译速度同时保持翻译质量。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值