【极速版 -- 大模型入门到进阶】Transformer: Attention Is All You Need -- 第一弹

CODE_RabbitV

已于 2025-03-30 15:38:18 修改

阅读量289

点赞数 4

分类专栏：大模型入门文章标签： transformer 深度学习人工智能

于 2025-03-30 15:37:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CODE_RabbitV/article/details/146766826

版权

大模型入门专栏收录该内容

11 篇文章

订阅专栏

第二弹指路 Transformer: Attention Is All You Need – 第二弹

文章目录

- 🌊 Transformer 模块概述 -- 简化版本

🌊 Transformer 模块概述 – 简化版本

【1. Tokenization】把文字变成 Token ❄️

https://platform.openai.com/tokenizer

【2. Input Layer】理解每个 Token (从语义和位置上) 🔥

意思相近的 Token 会有接近的 Embedding，除了语义，位置上也包含有信息

【3. Attention】考虑 Token 上下文 – contextuallized token embedding

如下图的例子，同一个 token – 果 在不同的上下文中应该具有不同的理解

步骤一：先找出相关的 token，利用相关性计算程式；可能有不同的相关性存在，所以实际大多使用多个 (16个) 计算相关的程式，也就是常说的 multi-head attention

步骤二：集合相关的资讯

【4. Feed Forward】整合思考

把 multi-head attention 的结果进行汇总，得到一个 embedding 的结果

【3 & 4 Transformer Block】反复思考

Attention + Feed Forward 操作，构成一个 Transformer Block

构建网络时，会叠加多个 Transformer Block 进行反复思考

【5 Ouput Layer】输出概率

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。