transformer中masked attention 取上三角矩阵的原因

最新推荐文章于 2025-03-29 11:41:23 发布

只求毕业的程序媛

最新推荐文章于 2025-03-29 11:41:23 发布

阅读量1.5k

点赞数 3

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Tan_JX/article/details/130269475

版权

self-attention机制允许模型在生成序列时互相使用信息，但在训练过程中，为了模拟真实的序列生成（例如翻译任务），需要使用masking来阻止模型看到未来的信息。在处理ILOVEYOU到我爱你的例子中，解码器的输入会掩码掉部分信息，如a2和a3不能连接到b1，这对应于矩阵中的上三角部分设为0，确保计算不会涉及这些被掩码的部分。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

self-attention未masked时，都能互相使用信息。在实际中，我们知道生成一个句子时，我们无法看到后面的信息。比如生成我爱你，当生成“爱”时只能用到“我”的信息，并不能用到“你”的信息。但是在训练时，我们要给模型并行语料去学习，输入 I LOVE YOU 希望模型翻译成我爱你，但同时又要模拟真实情况下的输入，那么我们给decoder输入相应的译文中，要掩码掉部分信息，使其让模型不可见这部分信息。如图masked后，a2、a3不可连接到b1。那么矩阵中黄色部分就得取值为0，使代码对这部分不可运算。这也是为什么在transformer中的masked阶段要生成一个上三角矩阵的原因。

只求毕业的程序媛

博客等级

码龄5年

4
原创

4
点赞

8
收藏

1
粉丝

关注

私信

热门文章

最新评论

读取csv文件，对每行进行jieba分词，再写入新的csv文件
CSDN-Ada助手: 恭喜您完成了第四篇博客！标题看起来非常有趣，我很期待阅读您的文章。不仅读取csv文件，还对每行进行jieba分词，并将结果写入新的csv文件，这听起来非常实用。在下一步的创作中，或许您可以考虑探索如何利用jieba分词的结果进行更深入的数据分析或文本挖掘。谦虚地说，我相信您会在这个领域有更多的发现和见解。期待您的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
csv文件，计算每行的长度并添加至每行末
CSDN-Ada助手: 恭喜你写了第三篇博客！标题看起来很有趣，我很期待去阅读你的文章。看起来你在csv文件处理方面有一些专业知识。在计算每行长度并添加至每行末这个主题上，我相信你一定有一些独到的见解和技巧。希望你可以分享一些实际应用场景和具体的代码实现。接下来，我建议你可以继续探索csv文件的其他有趣功能，比如数据筛选、排序等等。期待你的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
transformer中masked attention 取上三角矩阵的原因
CSDN-Ada助手: 非常棒的博客！你对于transformer中masked attention的解释非常清晰易懂，让我对这一概念有了更深入的理解。希望你能继续写下去，分享更多有关NLP方面的知识。另外，除了掩码技术，我认为你可以进一步探讨一些与transformer相关的技术，如self-attention和multi-head attention等，它们也是NLP领域中非常重要的技术。再次感谢您的分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
pytorch之torch.utils.data
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。