针对上图分别从每个部分进行计算。
- BERT-Base, Uncased 12层,768个隐单元,12个Attention head,110M参数
- BERT-Large, Uncased 24层,1024个隐单元,16个head,340M参数
- BERT-Base, Cased 12层,768个隐单元,12个Attention head,110M参数
- BERT-Large, Uncased 24层,1024个隐单元,16个head,340M参数。
bert base 12层 768隐藏单元 12个head 共110M
vocab_size=30522,
hidden_size=768,
max_position_embeddings=512,
token_type_embeddings=2
第 1 部分:
Token Embeddings:总词汇是30522每个输出维度都是768,参数量是30522*768
Position Embeddings:transformer中位置信息是通过sincos生成,但是在bert中是学出来了 (原文中说的应该是的数据量足,能学出来)最大长度是512所以这里参数量是512*768