ELECTRA（Efficiently Learning an Encoder that Classifies Token Replacements Accurately）模型

彬彬侠

于 2025-03-07 15:43:47 发布

阅读量637

点赞数 8

分类专栏：大模型文章标签： ELECTRA Google Research RTD Hugging Face transformers

本文链接：https://blog.csdn.net/u013172930/article/details/146077141

版权

大模型专栏收录该内容

98 篇文章

订阅专栏

ELECTRA（Efficiently Learning an Encoder that Classifies Token Replacements Accurately）模型

ELECTRA（高效学习替换标记分类的编码器）是 Google Research 在 2020 年提出的一种 替代 BERT 训练方法的预训练模型，旨在 提高训练效率，同时保持甚至超越 BERT 的效果。

论文：ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

ELECTRA 采用了一种新的 预训练方法——替换标记检测（Replaced Token Detection, RTD），相比 BERT：

训练速度快（更少计算量）
数据利用率高（更有效的训练方式）
在多个 NLP 任务上超越 BERT

1. 为什么需要 ELECTRA？

BERT 采用 Masked Language Model（MLM） 进行训练：

随机 Mask 一部分 token
让模型预测 Mask 位置的单词

但 BERT 的问题：

数据利用率低：只有被 Mask 的单词（约 15%）参与训练，其余 85% 的单词没有提供训练信号。
计算成本高：BERT 训练需要大量计算资源。
收敛速度慢：训练过程中，BERT 需要多轮训练才能收敛。

ELECTRA 采用了 “替换标记检测（Replaced Token Detection, RTD）”，有效提高训练效率。

2. ELECTRA 的核心创新

ELECTRA 采用 两步训练方法：

替换 Token 生成器（Generator）
判别器（Discriminator）

2.1 训练步骤

(1) Generator（生成器）

类似于 BERT，采用 Masked Language Model（MLM） 训练，负责 生成伪单词。
用 较小的 BERT 模型 进行训练，以减少计算成本。

(2) Discriminator（判别器）

真正的 ELECTRA 模型
负责 判断每个 token 是否被替换
目标是训练出 能区分真实 token 和伪造 token 的模型

2.2 训练目标

BERT（MLM）目标

$\ M ) \max \sum_{t \in M} \log P_{\theta}(w_t | W_{\backslash M})$
其中：

BERT 只对被 Mask 的 15% token 进行训练
85% token 没有梯度更新

ELECTRA（RTD）目标

$\max \sum_{t} \log P_{\theta}(r_t | W)$
其中：

ELECTRA 对所有 token 进行训练
整个序列的 token 都能贡献梯度
相比 BERT，数据利用率更高
训练更高效，计算量更少
效果比 BERT 更强

3. ELECTRA 主要模型版本

ELECTRA 提供了不同规模的 Transformer 模型：

模型	参数量	层数	隐藏维度	注意力头数
ELECTRA-Small	14M	12 层	256	4
ELECTRA-Base	110M	12 层	768	12
ELECTRA-Large	340M	24 层	1024	16

ELECTRA Base 和 Large 规模与 BERT 相同，但训练更快，性能更强。

4. ELECTRA 在 Hugging Face `transformers` 库中的使用

ELECTRA 可以通过 Hugging Face 直接加载并使用。

4.1 安装 `transformers`

pip install transformers

4.2 加载 ELECTRA 分词器

from transformers import ElectraTokenizer

# 加载 ELECTRA 预训练的分词器
tokenizer = ElectraTokenizer.from_pretrained("google/electra-base-discriminator")

# 对文本进行分词
text = "I love natural language processing!"
tokens = tokenizer(text, return_tensors="pt")

print(tokens)

4.3 加载 ELECTRA 并进行文本表示

from transformers import ElectraModel

# 加载 ELECTRA 预训练模型
model = ElectraModel.from_pretrained("google/electra-base-discriminator")

# 前向传播
outputs = model(**tokens)

# 获取 ELECTRA 输出的隐藏状态
hidden_states = outputs.last_hidden_state
print(hidden_states.shape)  # (batch_size, sequence_length, hidden_dim)

4.4 ELECTRA 进行文本分类

from transformers import ElectraForSequenceClassification

# 加载 ELECTRA 文本分类模型（2 分类）
model = ElectraForSequenceClassification.from_pretrained("google/electra-base-discriminator", num_labels=2)

# 计算 logits
outputs = model(**tokens)
print(outputs.logits)

5. ELECTRA 的应用场景

ELECTRA 适用于 各种 NLP 任务：

文本分类（情感分析、垃圾邮件检测）
命名实体识别（NER）
问答系统（QA）
阅读理解
信息抽取
机器翻译

由于 ELECTRA 训练更高效、计算成本更低，它比 BERT 更适用于工业级应用。

6. ELECTRA 与其他 Transformer 模型的对比

模型	架构	训练方法	训练数据利用率	适用任务
BERT	仅编码器	Masked LM（MLM）	15% token 参与训练	适用于分类、问答
RoBERTa	仅编码器	更长训练、动态 Mask	15% token 参与训练	适用于分类、问答、NER
XLNet	仅编码器	Permutation Language Model（PLM）	100% token 训练	适用于长文本任务
ELECTRA	仅编码器	替换标记检测（RTD）	100% token 训练	比 BERT 训练更高效
GPT-3	仅解码器	自回归语言建模	100% token 训练	适用于文本生成