如何计算模型中的参数数量

如果查看模型中的参数,最简单的方式就是在 HuggingFace 的主页上查看,例如,查看 Qwen2.5 0.5B 的参数量以及参数的详细信息,直接在Huggingface 搜索。
在这里插入图片描述
这个 494M 参数都包括什么?可以点击右边的详情按钮
在这里插入图片描述
我们来具体看一下 GPT2 Small 参数量是怎么算出来的,GPT2 Embedding 大小是 768,12 层 Decode Block。

  1. Embedding:50257 * 768,词库大小是 50257
  2. Position Embedding: 1024 * 768,上下文长度 1024 个 Token
  3. Input 到 Q、K、V,三个 Project Matrix:3 个 768 * 768 矩阵
  4. Attention Output: 注意力输入 Project Matrix:768 * 768
  5. FFN Hidden:768 * (768 * 4)
  6. FFN Output: (768 * 4) * 768
  7. 两个 Norm:(768 + 768) * 2

参数总计为 124 万。
在这里插入图片描述

总结

不同的 Transformer 模型的参数的算法不太一些样,如果使用的 GQA,KV Matrix 和 Q Matrix 维度不同,计算时需要查看 Model 的配置信息,在模型仓库 config.json 文件中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值