Transformer - Teacher Forcing

二分掌柜的

已于 2024-04-18 19:31:51 修改

阅读量1.4k

点赞数 9

分类专栏：深度学习大模型文章标签： transformer 深度学习人工智能

于 2024-04-18 19:30:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/flyfish1986/article/details/137923037

版权

大模型同时被 2 个专栏收录

249 篇文章

订阅专栏

148 篇文章

订阅专栏

文章讲述了Transformer模型在训练中采用的TeacherForcing方法，即在训练阶段使用目标序列而非预测序列。这种方法有助于避免错误累积，但可能导致训练速度变慢。相比之下，模型在推理阶段则不使用TeacherForcing。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Transformer - Teacher Forcing

flyfish
在这里插入图片描述

在训练过程中，将目标序列输入给解码器的方法称为（Teacher Forcing）。这个术语又代表什么意思呢？
这里的目标序列就是Ground Truth，也就是我们已知的正确答案
一句话就是我们将一个token送入解码器。在训练中，虽然解码器可能在前一步产生错误的token，但在下一步我们仍然将正确的token输入解码器。
在这里插入图片描述

在训练阶段，原本也可以采用与推理阶段相同的策略。换句话说，让Transformer以循环方式进行运作，取出输出序列中的最后一个词，将其追加到解码器的输入中，然后在下一次迭代时送入解码器。最终，当模型预测出结束符（end-of-sentence token）时，损失函数会比较生成的输出序列和目标序列，以便训练网络。

然而，这种循环方式不仅会导致训练过程显著变慢，而且也会使模型的训练更加困难。模型必须基于可能错误预测的第一个词去预测第二个词，如此往复，错误可能会不断累积放大。

相反，通过将目标序列喂给解码器，就如同教师给予提示一样，即便模型预测的第一个词出现错误，也能利用正确的第一个词来预测第二个词，从而避免这些错误不断累积。

解码器是以偏移一个单位的正确标签（shifted right）作为输入,而不是使用预测值，因为预测值可能对，也可能错。
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

二分掌柜的 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。