BERT参数量计算

最新推荐文章于 2025-02-11 21:24:07 发布

小布莱克

最新推荐文章于 2025-02-11 21:24:07 发布

阅读量3.1k

点赞数 1

分类专栏： NLP 文章标签：自然语言处理

本文链接：https://blog.csdn.net/qq_40966493/article/details/115867304

版权

NLP 专栏收录该内容

3 篇文章

订阅专栏

在这里插入图片描述

模型概况：

BERT-Base: $L = 12, H = 768, A = 12$

参数计算：

PART 01：input embedding

Token Embedding: $30522 \times 768$
Position Embedding: (max_length) $512 \times 768$
Segment Embedding: $\times 768$
总参数量 $\times 768 = 23,835,648$

PART 02：Multi-Head Attention

基本信息
- 12个head
- 生成 Q K V 3个向量
单个 head 的参数量
- $768 \times 768/12 \times 3$
多头拼接的参数
- $12 \times 768/12 \times 768$
总参数量 $768 \times 768/12 \times 3)\times {\color{red}12} + 12 \times 768/12 \times 768 = 2,359,296$

PART 03：Add & Norm （第一次）

基本信息
- 针对多头注意力的输出，这里使用的是 $L a y e r N o r m (x + S u b l a y e r (x))$
  
  进行层标准化需要计算同一层隐层单元中的如上两个参数。
总参数量： $768 \times 2 = 1,536$

PART 04：Feed Forward

公式 $FFN(x)=max(0, xW_{1}+b_{1})W_{2}+b_{2}$
论文指明，feed-forward/filter size 设置为 4H（即 $\times 768 = 3072$ ）
第一层参数： $768 \times 3072 + 3072$
第二层参数： $3072 \times 768 + 768$
总参数量： $768 \times 3072 + 3072)+ (3072 \times 768 + 768)= 4,722,432$

PART 05：Add & Norm （第二次）

与第一次相同，参数量为 $768 \times 2 = 1,536$

计算结果：

由于 PART 02-05 在 BERT-Base 模型中共有 12 个 Encoder
因此，参数总量为：
$\times 12 = 108,853,248$

参考论文

Transformer: Attention is all you need
Layer Normalization: Layer Normalization
BERT: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding