TeaForN：让Teacher Forcing更有“远见”一些

最新推荐文章于 2021-09-29 10:45:42 发布

PaperWeekly

最新推荐文章于 2021-09-29 10:45:42 发布

阅读量687

点赞数

文章标签：人工智能自然语言处理 xhtml gwt 过拟合

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/109541374

版权

TeaForN是Google提出的一种新的训练策略，旨在减轻Seq2Seq模型中的Exposure Bias问题。不同于Teacher Forcing只预测当前token，TeaForN通过嵌套迭代预测后N个token，提高模型的前瞻性。虽然Student Forcing能完全解决这个问题，但存在并行性和收敛性挑战。TeaForN在保持并行性的同时提升了模型的远见，实验结果显示它能有效提高模型性能。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者｜苏剑林

单位｜追一科技

研究方向｜NLP、神经网络

Teacher Forcing 是 Seq2Seq 模型的经典训练方式，而 Exposure Bias则是 Teacher Forcing 的经典缺陷，这对于搞文本生成的同学来说应该是耳熟能详的事实了。笔者之前也曾写过文章 Seq2Seq中Exposure Bias现象的浅析与对策，初步地分析过 Exposure Bias 问题。

本文则介绍 Google 新提出的一种名为“TeaForN”的缓解 Exposure Bias 现象的方案，来自论文 TeaForN: Teacher-Forcing with N-grams，它通过嵌套迭代的方式，让模型能提前预估到后 N 个 token（而不仅仅是当前要预测的 token），其处理思路上颇有可圈可点之处，值得我们学习。