小白bert参数计算

这篇博客详细解析了BERT模型的参数计算,包括Token Embeddings、注意力部分、残差和Norm、前向传播等四个部分,涉及的参数量分别为23835648、2359296、1536、4722432,总计约109M参数。
摘要由CSDN通过智能技术生成

在这里插入图片描述

针对上图分别从每个部分进行计算。

  • BERT-Base, Uncased 12层,768个隐单元,12个Attention head,110M参数
  • BERT-Large, Uncased 24层,1024个隐单元,16个head,340M参数
  • BERT-Base, Cased 12层,768个隐单元,12个Attention head,110M参数
  • BERT-Large, Uncased 24层,1024个隐单元,16个head,340M参数。

bert base 12层 768隐藏单元 12个head 共110M

vocab_size=30522,
hidden_size=768,
max_position_embeddings=512,
token_type_embeddings=2

1 部分:

Token Embeddings:总词汇是30522每个输出维度都是768,参数量是30522*768

Position Embeddings:transformer中位置信息是通过sincos生成,但是在bert中是学出来了 (原文中说的应该是的数据量足,能学出来)最大长度是512所以这里参数量是512*768

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值