Transformer - Teacher Forcing

文章讲述了Transformer模型在训练中采用的TeacherForcing方法,即在训练阶段使用目标序列而非预测序列。这种方法有助于避免错误累积,但可能导致训练速度变慢。相比之下,模型在推理阶段则不使用TeacherForcing。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Transformer - Teacher Forcing

flyfish
在这里插入图片描述

在训练过程中,将目标序列输入给解码器的方法称为(Teacher Forcing)。这个术语又代表什么意思呢?
这里的目标序列就是Ground Truth,也就是我们已知的正确答案
一句话就是我们将一个token送入解码器。在训练中,虽然解码器可能在前一步产生错误的token,但在下一步我们仍然将正确的token输入解码器。
在这里插入图片描述

在训练阶段,原本也可以采用与推理阶段相同的策略。换句话说,让Transformer以循环方式进行运作,取出输出序列中的最后一个词,将其追加到解码器的输入中,然后在下一次迭代时送入解码器。最终,当模型预测出结束符(end-of-sentence token)时,损失函数会比较生成的输出序列和目标序列,以便训练网络。

然而,这种循环方式不仅会导致训练过程显著变慢,而且也会使模型的训练更加困难。模型必须基于可能错误预测的第一个词去预测第二个词,如此往复,错误可能会不断累积放大。

相反,通过将目标序列喂给解码器,就如同教师给予提示一样,即便模型预测的第一个词出现错误,也能利用正确的第一个词来预测第二个词,从而避免这些错误不断累积。

解码器是以偏移一个单位的正确标签(shifted right)作为输入,而不是使用预测值,因为预测值可能对,也可能错。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

二分掌柜的

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值