exposure bias 和 teacher forcing

最新推荐文章于 2023-10-17 14:30:11 发布

竹子攀岩

最新推荐文章于 2023-10-17 14:30:11 发布

阅读量614

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lzkzls/article/details/103860911

版权

深度学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

在sequence model的训练过程中，输入到下一时刻的是上一时刻的ground-truth，在测试过程中，输入到下一时刻的是模型自己在上一时刻的预测结果，这时，模型在测试过程中的表现可能很差，因为模型在训练和测试过程中对下一时刻的预测是从不同的分布中推断出来的，模型的预测错误容易被累计。而这种不一致导致训练模型和测试模型直接的Gap，就叫做 Exposure Bias。

teacher forcing：在 timestep t ,给 decoder模块的输入是 Ground-truth 语句中位置Y^(t-1)时刻的单词。

exposure bias和teacher forcing存在很多问题：

teacher forcing在训练的时候，要求生成的字符和参考句子相同，这种约束能够减少训练过程中模型的发散，加快收敛速度，但是会扼杀解码的多样性。

同样，这种约束可能会导致矫枉过正（overcorrect）。

但是，teacher-forcing有有点，在训练的时候，使用ground-truth来矫正模型的预测结果，避免生成的序列中误差被进一步放大。

与teacher-forcing技术相对的是autoregressive技术：在timestep t，输入给decoder的是decoder在t-1时刻的输出。

https://zhuanlan.zhihu.com/p/93030328。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
exposure bias 和 teacher forcing

在sequence model的训练过程中，输入到下一时刻的是上一时刻的ground-truth，在测试过程中，输入到下一时刻的是模型自己在上一时刻的预测结果，这时，模型在测试过程中的表现可能很差，因为模型在训练和测试过程中对下一时刻的预测是从不同的分布中推断出来的，模型的预测错误容易被累计。而这种不一致导致训练模型和测试模型直接的Gap，就叫做 Exposure Bias。teacher f...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。