【深度学习】(4) Transformer 中的 Decoder 机制，附Pytorch完整代码

最新推荐文章于 2025-04-22 23:08:59 发布

立Sir

最新推荐文章于 2025-04-22 23:08:59 发布

阅读量4.6k

点赞数 7

分类专栏： pyTorch深度学习文章标签：深度学习神经网络 pytorch nlp transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dgvv4/article/details/125523318

版权

大家好，今天和各位分享一下 Transformer 中的 Decoder 部分涉及到的知识点：计算 self-attention 时用到的两种 mask。

本文是对前两篇文章的补充，强烈建议大家先看一下：

1.《Transformer代码复现》：https://blog.csdn.net/dgvv4/article/details/125491693

2.《Transformer中的Encoder机制》：https://blog.csdn.net/dgvv4/article/details/125507206

1. Decoder 的 self-attention 中的 mask

本节介绍的 mask 对应模型结构图中的位置：

如下图，decoder 的 self-attention 中使用的 mask 是一个下三角矩阵，当 decoder 预测第一个单词时，给它的输入是一个特殊字符 x1，当 decoder 预测第二个位置时，给它的输入是特殊字符 x1 和目标序列的第一个单词 x2

下面举一个例子：

encoder的输入: i love you

decoder的输入: /f 我爱你

此时的 decoder 是由4个词组成的向量，Mask 是一个 4*4 大小的矩阵

当 decoder 预测第一个单词 '我' 时, decoder 的输入是一个特殊字符 '/f'，mask为[1,0,0,0]

当 decoder 预测第二个单词 '爱' 时, decoder 的输入是一个特殊字符 '/f' 和第一个单词 '我'，mask为[1,1,0,0]

最低0.47元/天解锁文章

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

立Sir 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。