RoBERTa（Robustly Optimized BERT Pretraining Approach）模型

彬彬侠

于 2025-03-06 12:51:37 发布

阅读量1.2k

点赞数 28

分类专栏：大模型文章标签： RoBERTa 鲁棒优化BERT Facebook AI FAIR bert Hugging Face transformers

本文链接：https://blog.csdn.net/u013172930/article/details/146066720

版权

大模型专栏收录该内容

99 篇文章

订阅专栏

RoBERTa（Robustly Optimized BERT Pretraining Approach）模型

RoBERTa（鲁棒优化 BERT，Robustly Optimized BERT Pretraining Approach）是 Facebook AI（FAIR） 在 2019 年提出的一种 改进版 BERT，通过 改进 BERT 预训练方法，在 NLP 任务中取得了更好的表现。

论文：RoBERTa: A Robustly Optimized BERT Pretraining Approach

1. 为什么需要 RoBERTa？

BERT 在 NLP 任务上表现优秀，但其 预训练策略存在局限性，例如：

预训练数据量较少（仅 16GB）。
预训练步骤不足（100 万步）。
使用了 NSP（Next Sentence Prediction，下一句预测），但作用有限。

RoBERTa 通过 优化 BERT 的预训练方法，显著提高了模型效果，而 模型架构本身没有改变。

2. RoBERTa 的关键改进

RoBERTa 没有修改 BERT 的架构，而是优化了 训练策略，主要改进点包括：

更大规模的预训练数据
更长时间的训练
移除 NSP 任务
更动态的 Mask 机制
更大 Batch Size

2.1 使用更大规模的训练数据

BERT 训练数据：16GB
RoBERTa 训练数据：160GB（10 倍）

RoBERTa 使用了 更大规模的无监督文本数据，包括：

BookCorpus（BERT 也使用）
Wikipedia（BERT 也使用）
Common Crawl（新增）
OpenWebText（新增）
Stories（新增）

通过 增加训练数据量，RoBERTa 学到了更丰富的语义信息。

2.2 训练更长时间

BERT 训练步数：100 万步
RoBERTa 训练步数：200 万步

RoBERTa 增加了训练迭代次数，让模型 更充分地学习语言知识，进一步提高性能。

2.3 移除 NSP（Next Sentence Prediction）任务

BERT 采用 NSP 任务来判断两句话是否相关，但实验表明 NSP 对下游任务提升有限。
RoBERTa 移除了 NSP，仅使用 Masked Language Model（MLM） 进行训练。

移除 NSP 后，RoBERTa 训练更加高效，并且在 问答、文本分类等任务上表现更好。

2.4 更动态的 Mask 机制

BERT 采用 固定 Mask（在整个训练过程中，某个 token 总是被 mask 一次）。
RoBERTa 采用 动态 Mask（每次输入时，mask 的位置不同），增加模型的泛化能力。

示例

BERT：在训练时，“The cat sits on the [MASK].” 位置固定。
RoBERTa：在不同 batch 中，可能是：
- “The [MASK] sits on the mat.”
- “The cat sits on the [MASK].”

动态 Mask 使模型学到更丰富的上下文关系，而不是只学习单一的 Mask 位置。

2.5 使用更大的 Batch Size

BERT Batch Size：256
RoBERTa Batch Size：8192（大约 32 倍）

更大的 batch size 提高了训练稳定性和效率，使模型在大规模数据上表现更好。

3. RoBERTa 主要模型版本

Facebook 提供了多个 RoBERTa 预训练模型：

模型	参数量	适用任务
`roberta-base`	125M	NLP 任务（文本分类、问答）
`roberta-large`	355M	更强的文本理解能力
`roberta-large-mnli`	355M	适用于自然语言推理（NLI）

RoBERTa 的 模型架构与 BERT 完全相同，只是 优化了训练策略。

4. RoBERTa 在 Hugging Face `transformers` 库中的使用

Hugging Face 提供了 RoBERTa 预训练模型，可以直接用于推理和微调。

4.1 加载 RoBERTa 分词器

from transformers import RobertaTokenizer

# 加载 RoBERTa 预训练的分词器
tokenizer = RobertaTokenizer.from_pretrained("roberta-base")

# 对文本进行分词
text = "I love natural language processing!"
tokens = tokenizer(text, return_tensors="pt")

print(tokens)

4.2 加载 RoBERTa 并进行文本表示

from transformers import RobertaModel

# 加载 RoBERTa 预训练模型
model = RobertaModel.from_pretrained("roberta-base")

# 前向传播
outputs = model(**tokens)

# 获取 RoBERTa 输出的隐藏状态
hidden_states = outputs.last_hidden_state
print(hidden_states.shape)  # (batch_size, sequence_length, hidden_dim)

4.3 RoBERTa 进行文本分类

from transformers import RobertaForSequenceClassification

# 加载 RoBERTa 文本分类模型（2 分类）
model = RobertaForSequenceClassification.from_pretrained("roberta-base", num_labels=2)

# 计算 logits
outputs = model(**tokens)
print(outputs.logits)

5. RoBERTa 的应用场景

RoBERTa 适用于各种 NLP 任务：

文本分类（情感分析、垃圾邮件检测）
命名实体识别（NER）
问答系统（QA）
自然语言推理（NLI）
语义匹配

由于 RoBERTa 去除了 NSP 任务，并使用了更强的训练方法，在 文本分类、问答、语义匹配 任务上表现更优。

6. RoBERTa 与其他 Transformer 模型的对比

模型	架构	训练优化	适用任务
BERT	仅编码器	原始训练方法	适用于分类、问答、NER
GPT	仅解码器	自回归训练	适用于文本生成
T5	编码器-解码器	统一任务格式	适用于翻译、摘要、问答
RoBERTa	仅编码器	更长训练、动态 Mask	适用于分类、问答、NER