RoBERTa 关键改进点详细讲解

最新推荐文章于 2025-03-06 12:51:37 发布

SmallerFL

最新推荐文章于 2025-03-06 12:51:37 发布

阅读量885

点赞数 10

分类专栏： NLP&机器学习文章标签： bert gpt transformer 自然语言处理 llm

本文链接：https://blog.csdn.net/qq_36803941/article/details/143715471

版权

NLP&机器学习专栏收录该内容

102 篇文章

订阅专栏

文章目录

1. 概述
2. 数据集
3. 大批次
4. 移除NSP目标
5. 采用动态 Masking 模式
6. 采用字节级 BPE 词汇表
7. 参考

1. 概述

RoBERTa，全称为 A Robustly Optimized BERT Pretraining Approach，是一种对 BERT 预训练方法的改进。它通过对 BERT 模型的预训练过程进行细致的调整和优化，以提高模型在各种自然语言处理任务上的性能。RoBERTa 的主要目标是通过对关键超参数和训练数据大小的影响进行仔细的测量，从而提出一种改进的 BERT 训练方法，这种方法能够匹配或超过 BERT 模型的性能。原论文看这里。

BERT 详细介绍看这里：
《NLP深入学习：结合源码详解 BERT 模型（一）》
《NLP深入学习：结合源码详解 BERT 模型（二）》
《NLP深入学习：结合源码详解 BERT 模型（三）》

下面介绍 RoBERTa 相较于原始 BERT 的改进点。

2. 数据集

数据集包含 BOOKCORPUS、CC-NEWS、OPENWEBTEXT、STORIES。

研究者们收集了一个大型的新数据集 CC-NEWS，这个数据集包含了大量的新闻文章。通过在更大的数据集上进行预训练，RoBERTa能够学习到更广泛的语言特征和模式。

3. 大批次

训练更长时间，使用更大的批次大小，覆盖更多的数据。

从实验可以看出，大批次训练降低了掩蔽语言建模（masked language modeling）目标的困惑度，以及最终任务的准确性。大批量处理也更容易通过分布式处理进行数据并行训练，RoBERTa 后来的实验中用 8K 序列批量训练。

4. 移除NSP目标

移除了 BERT 的 NSP（Next Sentence Prediction）目标。

SEGMENT-PAIR+NSP：原始 BERT 使用的输入格式，其中包含两个段落，中间用特殊的分隔符 [SEP] 隔开；
SENTENCE-PAIR+NSP：与 SEGMENT-PAIR+NSP 类似，但输入由一对自然句子组成，而不是段落，句子可以来自同一个文档的连续部分，或者来自不同的文档；
FULL-SENTENCES（无 NSP）：输入由完整的句子组成，这些句子连续从一个或多个文档中采样。当达到一个文档的末尾时，模型会开始从下一个文档中采样句子，并在文档之间添加额外的分隔符。这种格式去除了 NSP 目标，因为它假设输入的连续性不再是预测任务的一部分。
DOC-SENTENCES（无 NSP）：与 FULL-SENTENCES 类似，但它限制输入不能跨越文档边界。

从实验可以看出，无 NSP 的模型在 SQuAD 数据集上评测效果表现整体更好，其中 DOC-SENTENCES 输入格式效果则更佳。然而，由于 DOC-SENTENCES 导致批次大小可变，在其余的实验中使用 FULL-SENTENCES，以便于与相关工作进行比较。

5. 采用动态 Masking 模式

训练时采用动态 Masking 模式

原始 BERT 模型在数据预处理阶段对每个样本只进行一次掩码操作，这可能导致模型在训练过程中多次看到相同的掩码模式。RoBERTa 通过动态改变掩码模式，即每次将数据输入模型时都重新生成掩码，增加了训练数据的多样性，迫使模型学习更加鲁棒的特征。

6. 采用字节级 BPE 词汇表

使用更大的字节级 BPE （Byte-Pair Encoding）词汇表，而不是基于字符的 BPE 词汇表。

BERT 原始模型使用的是基于字符的 BPE 的 30K 词汇表，这限制了词汇表的大小和覆盖范围。RoBERTa 采用了一个更大的字节级 BPE 50K 词汇表，这允许模型处理更多样化的词汇，包括罕见词和专有名词，而不需要将它们替换为“unknown”标记。

7. 参考

[1] https://arxiv.org/pdf/1907.11692
[2] https://blog.csdn.net/qq_36803941/article/details/136625173
[3] https://blog.csdn.net/qq_36803941/article/details/136643320
[4] https://blog.csdn.net/qq_36803941/article/details/136947592

欢迎关注本人，我是喜欢搞事的程序猿；一起进步，一起学习；

欢迎关注知乎/CSDN：SmallerFL

也欢迎关注我的wx公众号（精选高质量文章）：一个比特定乾坤

在这里插入图片描述