重新梳理Attention Is All You Need（Transformer模型），从输入到输出

Ankie（资深技术项目经理）

已于 2024-04-05 13:13:19 修改

阅读量1.4k

点赞数 33

分类专栏：人工智能AI 虚拟现实VR 黑客帝国 # Transformer模型文章标签：人工智能 transformer gpt sora bert 神经网络模型

于 2024-03-25 00:07:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ank1983/article/details/136996863

版权

人工智能AI 虚拟现实VR 黑客帝国同时被 2 个专栏收录

76 篇文章 4 订阅

订阅专栏

Transformer模型

22 篇文章 1 订阅

订阅专栏

Transformer模型

Transformer模型一统江湖，已经成为当前所有自然语言处理NLP的标配，如GPT，Bert，Sora，LLama，Grok等。Transformer模型来自于2017年Google DeepMind团队发表的论文《Attention Is All You Need》。假如《Attention Is All You Need》类比为爱因斯坦的狭义相对论，Transformer模型则堪称E=MC^2质能方程。

原论文并非按照模块顺序论述，我们按照输入输出顺序重新梳理一遍这个模型：

宏观来看一下论文中的6层encoder和decoder

回到论文中的transformer架构

各个组件（层）简介：

1，Inputs：论文中是为了英德翻译，inputs就是预先配对的英文

2，input embedding：文本嵌入，将文本中的词汇转为张量表示，论文中Dm=512。

3，positional encoding：位置编码器，将位置信息加入到文本嵌入张量。

4，encoder：编码器，提取特征值（权重）。论文中有6层，N=6；每个encoder里面有2个子层：

Multi-Head attention：多头注意机制，这个是transformer的核心。下一篇文章细讲。
Feed forward：前馈网络，2个线性层，中间加上ReLU激活函数。提高拟合能力。
子层连接结构add&norm：
1. add：残差连接（跳跃连接），把原来的输入跟输出又并到一起。目的是将信息传递的更深，增强模型的拟合能力。
2. norm：归一层（规范化层）的主要作用：在一定的网络层数之后，对数值进行归一（规范化），使得特征数值保持在合理的范围内。这样，可以有效地解决参数过大或过小的问题，提高模型的稳定性和收敛速度。

5，outputs（shifted right）：论文中是为了英德翻译，outputs就是预先配对的德文。

6，output embedding：文本嵌入，将文本中词汇转为张量表示。

7，decoder：解码器，使用特征值（权重）预测输出。论文中有6层，N=6；decoder里面有3个子层，跟encoder大体相同，下面只讲不同的地方

Masked Multi-Head attention：在encode里面的MHA，因为是训练阶段，所以知道输入的所有信息，计算了所有输入的注意力；而decoder是要推理预测输出，只能根据已有的输入，不能预知未来。所以需要Mask未知的输出。
中间的Multi-Head attention：把encoder里的输出K和V（英文）注入到MHA，用来拟合英德翻译。

8，linear：线性层，获取最佳拟合。

9，softmax：常用于神经网络的输出层，以将原始的输出值转化为概率分布，从而使得每个类别的概率值在0到1之间，并且所有类别的概率之和为1。这使得Softmax函数特别适用于多类分类问题，其中模型需要预测输入样本属于多个可能类别中的哪一个。

10，output Proabilities：输出的就是概率。

encoder/decoder动画

GIF图片引用：

https://blog.research.google/2017/08/transformer-novel-neural-network.htmlhttps://blog.research.google/2017/08/transformer-novel-neural-network.html

Ankie（资深技术项目经理）

关注

33
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Ankie（资深技术项目经理） 打赏就是赞赏，感谢你的认可！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。