小周带你读论文-2之“草履虫都能看懂的Transformer老活儿新整“Attention is all you need(3)

最新推荐文章于 2024-12-28 21:25:49 发布

周博洋K

最新推荐文章于 2024-12-28 21:25:49 发布

阅读量782

点赞数 21

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kingsoftcloud/article/details/136026049

版权

上节课我们讲到了编码-embedding，现在我们离Transformer的核心又近了一层，也就是attention层，这也是论文标题里最重要的内容，属于是扣题了

这节应该是整个Transformer最有意思的地方了，也是大多数读者反映看着云里雾里的地方

还是用这幅图，我直接去掉了左边的部分，画红框的地方依然是被排除了

在经过了位置编码之后（三角编码或者RoPE），这块不理解的请看上一篇小周带你读论文-2之"草履虫都能看懂的Transformer老活儿新整"Attention is all you need(2) (qq.com)

按照上图从下往上，我们现在要进入到所谓的“掩码多头自注意力”的模块（层）里了，为了把问题简单化，我们今天把问题拆成

掩码
多头
自注意力

这三部分开来讲，但是我们要先打乱一下顺序

第一个概念自注意力：

什么是注意力？

大家别把这东西

最低0.47元/天解锁文章

博客等级

码龄8年

135
原创

2618
点赞

2256
收藏

1834
粉丝

关注

私信

热门文章

分类专栏

Gemini 1篇

展开全部收起

最新评论

精讲（但绝对讲明白）Deepseek的新论文SPCT
好zhaodemingzi: 请问大佬，SPCT在训练的每个阶段中对应数据集是什么样子呢？这样看还是有些抽象
英伟达的GPU(3)
姝姝CCC: 这个资料是从哪里来的英伟达好像给不同shape的都做了特定的优化分块逻辑有资料吗
详解MS的GraphRAG的实现流程
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
多模态MLLM都是怎么实现的(9)-时序LLM是怎么个事儿？
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Q-star计划的更多细节
CSDN-Ada助手: 恭喜你写的第20篇博客！看到你对Q-star计划的更多细节的探究，我感到非常兴奋。接下来，我希望你可以继续深入挖掘Q-star计划的相关信息，比如它的实施步骤、影响等等。当然，这只是我的建议，希望你可以在接下来的创作中持续保持谦虚的态度，不断进步。期待你的下一篇博客！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。