小周带你读论文-2之“草履虫都能看懂的Transformer老活儿新整“Attention is all you need(4)

最新推荐文章于 2024-10-09 00:00:00 发布

周博洋K

最新推荐文章于 2024-10-09 00:00:00 发布

阅读量898

点赞数 21

文章标签： transformer 深度学习人工智能 AIGC agi

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kingsoftcloud/article/details/136092978

版权

本文详细解析Transformer模型中的自注意力机制、残差连接和Layer Normalization，阐述它们如何增强特征表征和防止梯度消失。此外，还讨论了FFN层的作用以及在输出阶段如何使用top_k策略提高模型表现力。

摘要由CSDN通过智能技术生成

终结篇了

书接前文：小周带你读论文-2之"草履虫都能看懂的Transformer老活儿新整"Attention is all you need(3) (qq.com)

本章把Trasfomer剩的一点网络讲完

上节课我们讲完了attetion的机制，我们再复习一下（这玩意就得反复看，加深记忆）

我下面再换几张图，换个角度来看，来自于复旦的Qiu Xipeng教授的slide

首先自注意机制它也不是Transformer才有的，实际上以前也有RNN+self-attention来解决词相关性长距离依赖问题的网络

如下图所示，我们为了让"The weather is nice today"的"The"去判断它和其他4个词的关系，我们可以让"The"这个向量去分别跟其他每个单词的向量做内积，然后走softmax做归一化之后，

最低0.47元/天解锁文章

关注

21
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

周博洋K CSDN认证博客专家 CSDN认证企业博客

码龄7年

101: 原创

17万+: 周排名

1万+: 总排名

9万+: 访问

: 等级

3106: 积分

1528: 粉丝

2093: 获赞

15: 评论

1727: 收藏

私信

关注

热门文章

分类专栏

Gemini 1篇

最新评论

英伟达的GPU(3)
姝姝CCC: 这个资料是从哪里来的英伟达好像给不同shape的都做了特定的优化分块逻辑有资料吗
详解MS的GraphRAG的实现流程
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
多模态MLLM都是怎么实现的(9)-时序LLM是怎么个事儿？
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Q-star计划的更多细节
CSDN-Ada助手: 恭喜你写的第20篇博客！看到你对Q-star计划的更多细节的探究，我感到非常兴奋。接下来，我希望你可以继续深入挖掘Q-star计划的相关信息，比如它的实施步骤、影响等等。当然，这只是我的建议，希望你可以在接下来的创作中持续保持谦虚的态度，不断进步。期待你的下一篇博客！
让Ilya都感到害怕的AGI是由什么东西创造出来的？
CSDN-Ada助手: 恭喜你写了第17篇博客！你对AGI的探讨让人印象深刻，也给了读者很多思考的空间。接下来，我建议你可以深入探讨AGI是如何被创造出来的，可以从技术、伦理等多个角度展开，这样可以让读者更全面地了解这个话题。希望你能继续保持创作的热情，期待你的下一篇博客！

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。