DataWhale 11月 Happy-LLM T6：Encoder-only预训练语言模型：从BERT到ALBERT-CSDN博客

在自然语言处理领域，Transformer架构的出现了。基于Transformer的Encoder部分，研究者们开发出了一系列强大的预训练语言模型，彻底改变了NLP任务的解决方式。本文将深入解析BERT、RoBERTa和ALBERT这三个代表性模型的技术细节和演进历程。

一、BERT

1.1 核心思想

BERT（Bidirectional Encoder Representations from Transformers）是Google在2018年发布的里程碑式预训练模型，它统一了两种重要的思想：

Transformer架构继承：BERT完全基于Transformer的Encoder部分构建，通过堆叠Encoder层并扩大模型参数，打造了在自然语言理解任务上表现卓越的架构。

预训练+微调范式：沿袭ELMo的预训练思路，BERT采用两阶段训练方式，在海量无监督语料上预训练，然后在特定下游任务上微调。

1.2 模型架构详解

BERT的模型架构由Embedding层、Encoder块和prediction_heads组成：

输入处理流程：

文本序列通过tokenizer转化为input_ids
经过Embedding层转化为hidden_states
通过多层Encoder Layer编码
最后经过prediction_heads输出分类结果

关键技术细节：

使用WordPiece分词算法
采用GELU激活函数
相对位置编码融入注意力机制

1.3 创新的预训练任务

掩码语言模型（MLM）

MLM是BERT的核心创新，通过随机遮蔽输入token让模型双向理解上下文：

# MLM任务示例
输入：I <MASK> you because you are <MASK>
输出：<MASK> - love; <MASK> - wonderful

遮蔽策略：

随机选择15%的token
80%替换为[MASK]
10%替换为随机token
10%保持不变

这种策略解决了预训练与微调的不一致问题，同时迫使模型深入理解上下文。

下一句预测（NSP）

NSP任务训练模型理解句子间关系：

# 正样本
Sentence A: I love you.
Sentence B: Because you are wonderful.
输出：1（连续上下文）

# 负样本  
Sentence A: I love you.
Sentence B: Because today's dinner is so nice.
输出：0（不连续上下文）

1.4 训练规模与下游应用

训练数据：

800M BooksCorpus + 2500M 英文维基百科
总共3.3B token，13GB数据
256 batch size，1M训练步数

下游任务微调：

使用[CLS]token作为句子表示
针对不同任务修改prediction_heads
支持文本分类、序列标注、文本生成等

二、RoBERTa

2.1 主要改进点

移除NSP任务

通过实验验证，RoBERTa发现去掉NSP任务能提升模型性能。四个实验组对比证明纯MLM训练效果最佳。

动态掩码策略

相比BERT的静态掩码，RoBERTa在训练时动态生成掩码，每个epoch的掩码位置都不相同，增加数据多样性。

扩大训练规模

规模扩展：

训练数据：160GB（10倍于BERT）
批次大小：8K（BERT为256）
训练步数：500K步
序列长度：统一512

2.2 技术细节优化

分词策略改进

采用BPE（字节对编码）分词，词表大小从30K扩展到50K，更好处理稀有词和专业术语。

BPE示例：

"Hello World" → ["Hel", "lo", "Wor", "ld"]
中文"我"（UTF-8: E68891）→ ["E68", "891"]

训练效率提升

更大的批次大小提升训练速度和最终性能，为后续大模型训练提供重要参考。

三、ALBERT：参数效率的极致优化

3.1 参数压缩技术创新

嵌入层分解

传统嵌入层参数量：V × H（词表大小 × 隐藏层维度）

ALBERT改进：V × E + E × H（E为较小的嵌入维度，如128）

参数减少效果：

BERT-large：340M参数
ALBERT-xlarge：59M参数（减少83%）
效果反而更优

跨层参数共享

ALBERT在所有Encoder层之间共享参数，虽然层数不变，但参数量大幅减少。

实现方式：

仅初始化一个Encoder层
24次计算都经过同一层
参数共享但计算次数不变

3.2 改进的预训练任务

句子顺序预测（SOP）

替代NSP任务，SOP要求模型判断句子顺序：

# 正样本
Sentence A: I love you.
Sentence B: Because you are wonderful.
输出：1

# 负样本
Sentence A: Because you are wonderful.
Sentence B: I love you.
输出：0

SOP比NSP更具挑战性，能更好训练模型理解逻辑关系。

3.3 优势与局限

优势：

参数效率极高
在资源受限环境中表现优异
为模型轻量化提供新思路

局限：

推理速度没有显著提升
训练效率改进有限

四、技术演进总结

从BERT到RoBERTa再到ALBERT，展现了清晰的技术发展路径：

特性	BERT	RoBERTa	ALBERT
核心创新	双向编码	训练优化	参数效率
预训练任务	MLM+NSP	纯MLM	MLM+SOP
训练数据	13GB	160GB	同BERT
参数数量	1.1亿/3.4亿	3.4亿	大幅减少
主要贡献	确立范式	规模效应	效率优化

五、实践应用建议

5.1 模型选择

根据具体需求选择：

效果优先：RoBERTa
平衡选择：BERT
资源受限：ALBERT

5.2 部署考量

细节：

注意序列长度限制
保持分词一致性
中文需要特殊处理

六、个人心得

虽然当前大语言模型蓬勃发展，但Encoder-only模型在特定场景下仍不可替代：

计算效率优势：在实时应用中提供更快推理速度

领域适应能力：通过微调快速适应垂直领域

可解释性：注意力机制提供更好的模型透明度

这些经典模型的设计理念为理解现代NLP技术奠定了坚实基础，其核心思想将继续影响未来技术发展。

深入理解BERT系列模型，我最大的收获是看到了技术演进的清晰脉络：

从BERT开创的"双向阅读理解"模式，让我明白真正的语言理解需要同时把握上下文信息，就像人类理解一句话要通读全文而非只看前半句；

RoBERTa验证的"数据驱动"理念让我认识到，在AI领域，优质的海量数据和科学的训练策略往往比复杂的模型结构更重要；

而ALBERT探索的"参数精简化"则展示了如何在保持性能的前提下极致优化，这对实际部署极具价值。

这三个模型教会我一个重要道理：技术进步是持续优化的过程，BERT确立的预训练-微调范式至今仍在发光发热。这种能力在大模型时代依然不可替代。

资料来源：Happy-LLM