Transformer模型的参数计算

大模型算法和部署

于 2024-05-18 17:32:41 发布

阅读量1.1k

点赞数 24

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_53795212/article/details/139028764

版权

输入序列长度（sequence length）：10
一次处理的样本数量（batch size）：32
输入嵌入维度（embedding dimension）：512
位置编码维度：512
每一个Transformer层中注意力头的数量（number of attention heads）：8
前馈神经网络（FFN）隐藏层维度（hidden dimension of FFN）：2048
Transformer层的数量（number of Transformer layers）：6

1. 输入嵌入和位置编码（Input Embedding and Positional Encoding）

输入：batch size 为32，Sequence 长度为10，Embedding 维度为512的三维矩阵。
输出：加入位置编码后还是 [32, 10, 512] 的 embedding 表示。

2. 自注意力层（Self-Attention Layer）

2.1 查询、键、值矩阵计算（Query, Key, Value Calculation）

输入：这里需要注意，batch size 不参与计算，所以相对于输入，少了一个维度，真正参与运算的是一个二维矩阵，形状为 [10, 512]
查询、键、值矩阵权重和偏置：

对于每个头：
- 查询矩阵 𝑊𝑄：形状为 [512, 64]
- 偏置 𝑏𝑄,𝑏𝐾,𝑏𝑉：形状为 [64]
- 值矩阵 𝑊𝑉：形状为 [512, 64]
- 键矩阵 𝑊𝐾：形状为 [512, 64]
总权重参数量为：
- 查询矩阵：8×512×64=262144
- 偏置：8×64×3=1536
- 值矩阵：8×512×64=262144
- 键矩阵：8×512×64=262144
- 总计：262144×3+1536=787968
输出：
- 查询、键、值矩阵计算：
  - 查询 𝑄：形状为 [10, 8, 64]
  - 值 𝑉：形状为 [10, 8, 64]
  - 键 𝐾：形状为 [10, 8, 64]

2.2 注意力计算（Attention Calculation）

输入：查询 𝑄、键 𝐾、值 𝑉，形状为 [10, 8, 64]
计算：
输出：形状为 [10, 8, 64]

2.3 多头注意力（Multi-Head Attention）

输入：每个头的输出，形状为 [10, 8, 64]
拼接：将所有头的输出concat起来，形状为 [10, 512]
线性变换：

权重 𝑊𝑂：形状为 [512, 512]
偏置 𝑏𝑂：形状为 [512]
总参数量为：
- 权重：512×512=262144
- 偏置：512
- 总计：262144+512=262656
输出：形状为 [10, 512]

2.4 残差连接和层归一化（Residual Connection and Layer Normalization）

输入：形状为 [10, 512] 的输入加上多头注意力计算得到的输出[10, 512]。
输出：形状为 [10, 512]

3. 前馈神经网络（Feed-Forward Network, FFN）

3.1 第一层线性变换

输入：形状为 [10, 512]
线性变换：

- 权重 𝑊1：形状为 [512, 2048]
- 偏置 𝑏1：形状为 [2048]
- 总参数量为：
  - 权重：512×2048=1048576
  - 偏置：2048
  - 总计：1048576+2048=1050624
输出：形状为 [10, 2048]

3.2 激活函数

输入：形状为 [10, 2048]
输出：形状为 [10, 2048]

3.3 第二层线性变换

输入：形状为 [10, 2048]
线性变换：
- 权重 𝑊2：形状为 [2048, 512]
- 偏置 𝑏2：形状为 [512]
- 总参数量为：
  - 权重：2048×512=1048576
  - 偏置：512
  - 总计：1048576+512=1049088
输出：形状为 [10, 512]

3.4 残差连接和层归一化（Residual Connection and Layer Normalization）

输入：形状为 [10, 512] 的输入加上前馈神经网络的输出 [10, 512]。
输出：形状为 [10, 512]

总参数量（每层）

自注意力层：
- 查询、键、值矩阵：787968
- 多头注意力：262656
- 总计：787968+262656=1050624
前馈神经网络：
- 总计：2099712
每层总参数量：
- 自注意力层 + 前馈神经网络：1050624+2099712=3150336

总参数量（整个模型）

共6层Transformer，总参数量为：6×3150336=18902016

大模型算法和部署

关注

24
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
Transformer模型的参数计算

输入序列长度（sequence length）：10 一次处理的样本数量（batch size）：32 输入嵌入维度（embedding dimension）：512 位置编码维度：512 每一个Transformer层中注意力头的数量（number of attention heads）：8 前馈神经网络（FFN）隐藏层维度（hidden dimension of FFN）：2048 Transformer层的数量（number of Transformer layers）：61.
复制链接

扫一扫

大模型算法和部署 CSDN认证博客专家 CSDN认证企业博客

码龄4年

西安电子科技大学

29: 原创

2万+: 周排名

4万+: 总排名

2万+: 访问

: 等级

746: 积分

348: 粉丝

452: 获赞

6: 评论

364: 收藏

私信

关注

热门文章

最新评论

Ollama+Open WebUI本地部署Llama3 8b（附踩坑细节）
大模型算法和部署: 你之前下好OLLAMA之后有没有运行ollama run {模型名称}指令？OLLAMA本身是没有模型权重的，但是他可以很方便的帮你量化然后下载模型，让你的显存占用更少，比如我下载的llama3 8b只用了不到5G显存就能运行，我是因为之前下载了模型，open-webui可以自动检测到ollama下载的模型
Ollama+Open WebUI本地部署Llama3 8b（附踩坑细节）
blueharbor007: 这边安装好了以后，登录进去，左上角没有显示有模型。是哪一步出错了吗？
GPU vs CPU，GPU的三大优势
CSDN-Ada助手: 恭喜您发布了第15篇博客文章！标题“GPU vs CPU，GPU的三大优势”引人入胜，内容精彩纷呈。对于GPU的三大优势进行了深入探讨，让读者受益匪浅。希望您能继续保持创作的热情和耐心，探索更多有趣的主题，为读者带来更多的启发和收获。或许可以考虑深入研究不同领域的技术趋势，或者分享一些实用的技术经验，让读者在技术领域有更全面的了解。期待您更多的优质内容，加油！
GPU vs CPU，GPU的三大优势
CSDN-Ada助手: 恭喜用户发布了第15篇博客！标题“GPU vs CPU，GPU的三大优势”非常吸引人。希望用户能继续保持创作的热情和努力，分享更多有趣的内容。对于下一步的创作建议，或许可以探讨一下GPU和CPU在不同领域的应用，或者对比它们在处理特定任务时的效率和性能表现。期待看到用户更多精彩的文章！愿用户在写作的道路上不断进步，创作出更多有价值的内容。
C++中的多态
CSDN-Ada助手: 恭喜作者在C++领域又发布了一篇新的博客，讲解了多态的知识，让读者受益匪浅。希望作者可以继续保持创作的热情，不断分享自己的学习心得和经验。下一步可以考虑深入研究C++中其他重要的特性，比如模板、STL等，相信会有更多读者受益。期待作者更多优质内容的分享，加油！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。