TeaForN:让Teacher Forcing更有“远见”一些

TeaForN是Google提出的一种新的训练策略,旨在减轻Seq2Seq模型中的Exposure Bias问题。不同于Teacher Forcing只预测当前token,TeaForN通过嵌套迭代预测后N个token,提高模型的前瞻性。虽然Student Forcing能完全解决这个问题,但存在并行性和收敛性挑战。TeaForN在保持并行性的同时提升了模型的远见,实验结果显示它能有效提高模型性能。
摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者|苏剑林

单位|追一科技

研究方向|NLP、神经网络

Teacher Forcing 是 Seq2Seq 模型的经典训练方式,而 Exposure Bias则是  Teacher Forcing 的经典缺陷,这对于搞文本生成的同学来说应该是耳熟能详的事实了。笔者之前也曾写过文章 Seq2Seq中Exposure Bias现象的浅析与对策,初步地分析过 Exposure Bias 问题。

本文则介绍 Google 新提出的一种名为“TeaForN”的缓解 Exposure Bias 现象的方案,来自论文 TeaForN: Teacher-Forcing with N-grams,它通过嵌套迭代的方式,让模型能提前预估到后 N 个 token(而不仅仅是当前要预测的 token),其处理思路上颇有可圈可点之处,值得我们学习。

论文标题:

TeaForN: Teacher-Forcing with N-grams

论文链接:

https://arxiv.org/abs/2010.03494

(注:为了尽量跟旧文章保持一致,本文的记号与原论文的记号有所不同,请大家以理解符号含义为主,不要强记符号形式。)

Teacher Forcing

文章 Seq2Seq中Exposure Bias现象的浅析与对策已经相对详细地介绍了 Teacher Forcing,这里仅做简要回顾。首先,Seq2Seq 模型将联合概率分解为多个条件概率的乘积,这就是所谓的“自回归模型”:

然后,当我们训练第 t 步的模型 时,我们假设 都是已知的,然后让模型只预测 ,这就是 Teacher Forcing。

但在预测阶段,真实的 都是未知的,此时它们是递归地预测出来的,可能会存在传递误差等情况。因此 Teacher Forcing 的问题就是训练和预测存在不一致性,这让我们很难从训练过程掌握预测的效果。

没什么远见

怎么更具体理解这个不一致性所带来的问题呢?我们可以将它理解“没什么远见”。在解码器中,输入 和前 t-1 个输出 token 共同编码得到向量 ,在 Teacher Forcing 中,这个 只是用来预测 ,跟

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值