©PaperWeekly 原创 · 作者|苏剑林
单位|追一科技
研究方向|NLP、神经网络
Teacher Forcing 是 Seq2Seq 模型的经典训练方式,而 Exposure Bias则是 Teacher Forcing 的经典缺陷,这对于搞文本生成的同学来说应该是耳熟能详的事实了。笔者之前也曾写过文章 Seq2Seq中Exposure Bias现象的浅析与对策,初步地分析过 Exposure Bias 问题。
本文则介绍 Google 新提出的一种名为“TeaForN”的缓解 Exposure Bias 现象的方案,来自论文 TeaForN: Teacher-Forcing with N-grams,它通过嵌套迭代的方式,让模型能提前预估到后 N 个 token(而不仅仅是当前要预测的 token),其处理思路上颇有可圈可点之处,值得我们学习。
论文标题:
TeaForN: Teacher-Forcing with N-grams
论文链接:
https://arxiv.org/abs/2010.03494
(注:为了尽量跟旧文章保持一致,本文的记号与原论文的记号有所不同,请大家以理解符号含义为主,不要强记符号形式。)
Teacher Forcing
文章 Seq2Seq中Exposure Bias现象的浅析与对策已经相对详细地介绍了 Teacher Forcing,这里仅做简要回顾。首先,Seq2Seq 模型将联合概率分解为多个条件概率的乘积,这就是所谓的“自回归模型”:
然后,当我们训练第 t 步的模型 时,我们假设 都是已知的,然后让模型只预测 ,这就是 Teacher Forcing。
但在预测阶段,真实的 都是未知的,此时它们是递归地预测出来的,可能会存在传递误差等情况。因此 Teacher Forcing 的问题就是训练和预测存在不一致性,这让我们很难从训练过程掌握预测的效果。
没什么远见
怎么更具体理解这个不一致性所带来的问题呢?我们可以将它理解“没什么远见”。在解码器中,输入 和前 t-1 个输出 token 共同编码得到向量 ,在 Teacher Forcing 中,这个 只是用来预测 ,跟