Transformer decoder中masked attention的理解

最新推荐文章于 2024-06-16 23:55:31 发布

寺里LZS

最新推荐文章于 2024-06-16 23:55:31 发布

阅读量4.2k

点赞数 1

分类专栏： torch API 文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LZS12321LZS/article/details/121220388

版权

torch API 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

前前后后看了挺久的Transformer，本以为自己理解了，可实现起来总觉得差点意思。

encoder比较简单，不多介绍。记录一下decoder的使用。

masked attention是要使用一个上三角矩阵torch.triu来实现对未来信息的掩盖。为什么就掩盖未来信息了？看了这篇博客，明白了但没完全明白，说是decoder在训练时用的groundtruth，防止误差累积，取得比较好的训练结果，但像下图中这样也没发现decoder的输入中有未来信息啊。

在实践中，发现在训练时，如果要实现这个任务，其实做的是在decoder输入BOS，11，12，13，21，22，而groundtruth使用11，12，13，21，22，EOS，就是说输出要比输入往右错开一位训练即可，其实这也是很多NLP中seq2seq模型的训练方法。这样的话，在训练时，就要考虑到未来信息的泄露问题了。加入masked attention后，transformer的decoder在功能上其实相当于rnn了，当前输出只与当前和过去输入有关，而与未来信息无关，二者区别在于，rnn的历史信息，只能一级一级的传递到当前时间步，而decoder直接使用attention，可以直接实现信息传递，比如，t-4时刻的信息，rnn只能传播4次才能到t时刻，attention只需要传播一次即可。

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Transformer decoder中masked attention的理解

前前后后看了挺久的Transformer，本以为自己理解了，可实现起来总觉得差点意思。encoder比较简单，不多介绍。记录一下decoder的使用。masked attention是要使用一个上三角矩阵torch.triu来实现对未来信息的掩盖。为什么就掩盖未来信息了？看了这篇博客，明白了但没完全明白，说是decoder在训练时用的groundtruth，防止误差累积，取得比较好的训练结果，但这样也没发现decoder的输入中有未来信息啊。在实践中，发现在训练时，如果要实现这个任务，.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。