参考视频:
BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili
背景
BERT算是NLP里程碑式工作!让语言模型预训练出圈!
使用预训练模型做特征表示的时候一般有两类策略:
1. 基于特征 feature based (Elmo)把学到的特征和输入一起放进去做一个很好的特征表达
2. 基于微调 fine-tuning (GPT)
但是都用的是单向语言模型↑ 预测模型,所以限制了语言架构,比如说只能从左往右读
Masked Language Model
为了接触限制,BERT用的是一个带掩码的语言模型(MLM)(Masked Language Model),随机选字元,盖住,预测盖住的字
看多模态模型的时候有提到过!↑
next sentence prediction
在原文中随机取两个句子,让模型判断句子是否相邻
贡献
1. 说明双向信息的重要性
2.假设有比较好的预训练模型就不用对特定任务做特定的模型改动了
主要就是把前人的结果拓展到深的双向的模型架构上
相关工作
1. Unsupervised Feature-based Approches
2. Unsupervised Fine-tuning Approaches(GPT)
3. 在有标号的数据上进行迁移学习 (Transfer Learning from Supervised Data)
方法
模型
本篇工作调整了L:Transformer模块的个数,H:隐藏层的个数以及A:自注意力头的个数
BERT 的总参数主要包括两个部分:
-
嵌入层(Embeddings)
-
多个 Transformer Block(包含多头自注意力和前馈层 MLP)
1️⃣ 嵌入层的参数
嵌入层包括:
-
Token Embeddings:词表大小 × 隐藏维度 H
-
Segment Embeddings(区分句子 A/B):2 × H
-
Position Embeddings:最大句长(一般是 512)× H
通常词表大小是 30,000~32,000,保守记作 V。
所以嵌入层参数大约是:
Embedding 参数 ≈ V × H + 512 × H + 2 × H ≈ (V + 514) × H
2️⃣ Transformer Block 的参数
每个 Transformer Block 有两个主要模块:
🧠 (1) Multi-head Self Attention(多头自注意力)
这个模块包括三部分:Q、K、V的线性变换,以及输出层。
-
Q, K, V 每个是:H × H
-
共有三个 → 3 × H × H
-
输出层也有一个线性变换 → H × H
所以,一个注意力模块总共是:
Attention Layer 参数 = 4 × H × H
🧠 (2) MLP 前馈网络
MLP由两个线性层组成:
-
第一层:H → 4H → 参数:H × 4H
-
第二层:4H → H → 参数:4H × H
MLP 参数 = 4 × H × H + 4 × H × H = 8 × H × H
一个Transformer Block 参数 = (4 + 8) × H^2 = 12 × H^2
Transformer层参数 = L × 12 × H^2
总参数 = Embedding 参数+Transformer层参数= (V + 514) × H + L × 12 × H^2
输入和输出
输入:
序列(sequence):既可以是句子,也可是句子对
切词方法: WordPiece,节省参数
序列的第一个词永远是序列[CLS],因为bert希望它最后输出代表整个序列的一个信息
把两个句子合在一起的时候需要区分两个句子:
1)把每个句子后面放上特殊的词[SEP]
2) 学一个嵌入层
对每个词元进入BERT的向量表示,是词元本身的embedding,加句子embedding加position embedding
缺点:
与GPT(Improving Language Understanding by Generative Pre-Training)比,BERT用的是编码器,GPT用的是解码器。BERT做机器翻译、文本的摘要(生成类的任务)不好做。
写的不算全,后面看到后面补。