Roberta 充分训练的bert模型

最新推荐文章于 2024-07-03 17:59:23 发布

hanghangnie

最新推荐文章于 2024-07-03 17:59:23 发布

阅读量632

点赞数

分类专栏： NLP算法遨游之路文章标签： bert 自然语言处理人工智能

本文链接：https://blog.csdn.net/qq_51556906/article/details/125406900

版权

NLP算法遨游之路专栏收录该内容

10 篇文章 0 订阅

订阅专栏

RoBERTa是在论文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》中被提出的。此方法属于BERT的强化版本，也是BERT模型更为精细的调优版本。

他改了优化器的参数，原始BERT优化函数采用的是Adam默认的参数，其中β1=0.9,β2=0.999，在RoBERTa模型中考虑采用了更大的batches，所以将β2改为了0.98。

他把静态掩码改成了动态掩码，原始静态mask：BERT中是准备训练数据时，每个样本只会进行一次随机mask（因此每个epoch都是重复），后续的每个训练步都采用相同的mask，这是原始静态mask，即单个静态mask，这是原始 BERT 的做法。动态mask：并没有在预处理的时候执行 mask，而是在每次向模型提供输入时动态生成 mask，所以是时刻变化的。

他对NSP任务进行了探索，对比多种结果并使用了DOC-SENTENCES，

SEGMENT-PAIR + NSP：
这是原始 BERT 的做法。输入包含两部分，每个部分是来自同一文档或者不同文档的 segment （segment 是连续的多个句子），这两个segment 的token总数少于 512 。预训练包含 MLM 任务和 NSP 任务。

SENTENCE-PAIR + NSP：
输入也是包含两部分，每个部分是来自同一个文档或者不同文档的单个句子，这两个句子的token 总数少于 512。由于这些输入明显少于512 个tokens，因此增加batch size的大小，以使 tokens 总数保持与SEGMENT-PAIR + NSP 相似。预训练包含 MLM 任务和 NSP 任务。

FULL-SENTENCES：
输入只有一部分（而不是两部分），来自同一个文档或者不同文档的连续多个句子，token 总数不超过 512 。输入可能跨越文档边界，如果跨文档，则在上一个文档末尾添加文档边界token 。预训练不包含 NSP 任务。

DOC-SENTENCES：
输入只有一部分（而不是两部分），输入的构造类似于FULL-SENTENCES，只是不需要跨越文档边界，其输入来自同一个文档的连续句子，token 总数不超过 512 。在文档末尾附近采样的输入可以短于 512个tokens，因此在这些情况下动态增加batch size大小以达到与 FULL-SENTENCES 相同的tokens总数。预训练不包含 NSP 任务。

Roberta采用DOC-SENTENCES输入格式。

他使用了超大的batchs:整整8K。

他使用了更大的数据集：从bert的16G变成了160G，并增大了step，训练了500K步。

Byte-Pair Encoding（BPE）是字符级和词级别表征的混合，支持处理自然语言语料库中的众多常见词汇。

原版的 BERT 实现使用字符级别的 BPE 词汇，大小为30K，是在利用启发式分词规则对输入进行预处理之后学得的。Facebook 研究者没有采用这种方式，

他使用更大的byte级别BPE词汇表来训练BERT。roberta使用unicode的bytes进行编码，用于学习高频字节的组合，添加到原有词表中。词表总50M大小，比bertbase增加了15M,。且没有对输入作任何额外的预处理或分词。