大模型-模型预训练-模型参数量计算

静能生慧

于 2024-09-27 16:53:49 发布

阅读量93

点赞数 5

分类专栏：大模型文章标签：大模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sgliquangang/article/details/142596569

版权

大模型专栏收录该内容

14 篇文章 0 订阅

订阅专栏

一、说明

当前主流大模型架构为因果解码器架构
以下参数量计算以LLaMA为例
假设解码器有L层、词表大小为V

二、参数量组成部分及计算

1、输入嵌入层【VH】

词表大小为V，每个单次映射到一个H维的向量，且输入嵌入层只有一层，因此有VH个参数

2、多头自注意力层【4LH²】

解码器的每一层都包含一个多头自注意力层，查询、键、值三个组成变换矩阵，1个包含H²个参数，共3H²个参数，同事还需要1个额外的线性变换来将多头自注意力机制的输出拼接成最终的输出，有需要H²个参数，总共需要4LH²个参数

3、前馈网络层【3LHH´】

由三个线性变换组成，中间有一个非线性激活函数，前两个线性变换将输入从H维映射到H´维度，需要2HH´个参数，最后一个线性变换将输出从H´维映射回H维，需要HH´个参数，总共需要3HH´个参数

4、归一化层【2HL+H】

每层解码器包含两个RMSNorm操作，分别用于多头注意力层和前馈网络层的输入进行归一化处理，共有2LH个参数，最后一层也有一个归一化层，需要H个参数

5、输出层【VH】

输出层包含一个线性变换，将解码器的输出映射到词表大小V的维度，使用Softmax归一化后预测下一个单词的概率分布，需要VH个参数

三、计算过程

输入嵌入层VH+多头自注意力层4LH² +前馈网络层3LHH´+归一化层2LH+H +输出层VH
= 2VH + H + L(4H² + 3HH´ + 2H)

关注

5
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄12年

382
原创

967
点赞

908
收藏

916
粉丝

关注

私信

热门文章

分类专栏

大模型 14篇
数码 3篇
项目管理 1篇
后端 4篇
中间件、工具 16篇
办公 8篇
算法 23篇
Java 42篇
产品 1篇
区块链 1篇
Linux 11篇
C、C++ 2篇
编程基础 1篇
前端 1篇
iOS 151篇
python 1篇

最新评论

Java-设计模式
倾听一世，繁花盛开: 写的太完美了，互关一下吧
codeblock couldn‘t create project directory ：path
普通网友: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
iOS 数据库升级
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
iOS 数据库升级
普通网友: 干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。文章涵盖了很多实用的知识点。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
iOS runtime
普通网友: 大佬高质量文章，图文并茂，逻辑清晰，受益匪浅，期待大佬新作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。