Teacher-Forcing, Student-Forcing, Schedual sampling , Teacher-Recommended and Professor-Forcing训练策略

最新推荐文章于 2025-02-06 21:17:12 发布

……Riesling

最新推荐文章于 2025-02-06 21:17:12 发布

阅读量4.2k

点赞数 14

分类专栏：算法机器学习文章标签：自然语言处理深度学习神经网络训练策略序列生成

本文链接：https://blog.csdn.net/lyly1995/article/details/110958934

版权

本文介绍了深度学习序列生成任务中的几种训练策略，如Teacher-Forcing的快速收敛但预测阶段的问题，Student-Forcing的误差爆炸，以及 Scheduled Sampling 的平衡方案。此外，还探讨了Teacher-recommended和Professor-Forcing策略，旨在解决训练与推断阶段的不一致性和模型泛化问题。这些方法在自然语言处理和序列生成任务中具有重要意义。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

「Teacher forcing」

如果我们能够在每一步的预测时，让老师来指导一下，即提示一下上一个词的正确答案，decoder就可以快速步入正轨，训练过程也可以更快收敛。因此大家把这种方法称为teacher forcing。所以，这种操作的目的就是为了使得训练过程更容易。

缺点：（1）预测（inference stage）时我们没有老师给你做标记了！纯靠自己很可能挂掉。

（2）对于NMT任务来说，不可能保证某种语言中的每一个词在另一种语言中都有对应的词语【1】。（3）强制词语对应消除了语义相似的其他翻译结果，扼杀了翻译的多样性，（4）Overcorrect 问题【1】，解释如下：

1. 待生成句的Reference为: "We should comply with the rule."
2. 模型在解码阶段中途预测出来："We should abide"
3. 然而Teacher-forcing技术把第三个ground-truth "comply" 作为第四步的输入。那么模型根据以往学习的pattern，有可能在第四步预测到的是 "comply with"
4. 模型最终的生成变成了 "We should abide with"
5. 事实上，"abide with" 用法是不正确的，但是由于ground-truth "comply" 的干扰，模型处于矫枉过正的状态，生成了不通顺的语句。

preview