roberta

最新推荐文章于 2024-01-21 03:45:10 发布

Tingsie

最新推荐文章于 2024-01-21 03:45:10 发布

阅读量671

点赞数

分类专栏：自然语言处理文章标签：自然语言处理深度学习神经网络

原文链接：https://www.jianshu.com/p/eddf04ba8545

版权

自然语言处理专栏收录该内容

6 篇文章 0 订阅

订阅专栏

roberta的准备工作
在这里插入图片描述

attention刚开始应用于CV领域，后来迁移到NLP领域
后来基于attention提出了transformer
利用transformer的堆叠形成了bert
roberta是对bert的改进

roberta是多任务的（即可以解决不同的NLP任务），模型中间的代码块可以复用。只要修改一下模型的输入输出，下载别人预训练的权重集，用在roberta模型上，再用自己的数据集进行微调

在这里插入图片描述

roberta在bert的基础上做了8个方面的改进

1、more data
roberta预训练的数据量更大（160G的训练文本，bert只有16G），选取了不同领域不同任务上的数据集

4、学习率
刚开始，学习率不断增大，到临界值的时候，学习率开始递减

5、预训练移除了NSP任务
原本的Bert为了捕捉句子之间的关系，使用了NSP任务进行预训练，就是输入一对句子A和B，判断这两个句子是否是连续的。在训练的数据中，50%的B是A的下一个句子，50%的B是随机抽取的。

而RoBERTa去除了NSP，而是每次输入连续的多个句子，直到最大长度512（可以跨文章）。这种训练方式叫做（FULL - SENTENCES），而原来的Bert每次只输入两个句子。

6、text encoding
byte-pair encoding(BPE)是字级别和词级别表征的混合

7、whole word masking(wwm)
简单来说，原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词，在生成训练样本时，这些被分开的子词会随机被mask。在全词Mask中，如果一个完整的词的部分WordPiece子词被mask，则同属该词的其他部分也会被mask，即全词Mask。

8、dynamic mask（动态mask）
bert在训练模型时，一个句子会被多次喂到模型中用于参数学习，但是Google并没有在每次都mask掉这些单词，而是在确定要Mask掉的单词之后，80%的时候会直接替换为[Mask]，10%的时候将其替换为其它任意单词，10%的时候会保留原始Token。
RoBERTa使用了动态mask：每次向模型输入一个序列时都会随mask(mask哪些词不确定)。这样，在大量数据不断输入的过程中，模型会逐渐适应不同的mask策略，学习不同的语言表征。

原来Bert对每一个序列随机选择15%的Tokens替换成[MASK]，为了消除与下游任务的不匹配，还对这15%的Tokens进行（1）80%的时间替换成[MASK]；（2）10%的时间不变；（3）10%的时间替换成其他词。但整个训练过程，这15%的Tokens一旦被选择就不再改变，也就是说从一开始随机选择了这15%的Tokens，之后的N个epoch里都不再改变了。这就叫做静态Masking。

而RoBERTa一开始把预训练的数据复制10份，每一份都随机选择15%的Tokens进行Masking，也就是说，同样的一句话有10种不同的mask方式。然后每份数据都训练N/10个epoch。这就相当于在这N个epoch的训练中，每个序列的被mask的tokens是会变化的。这就叫做动态Masking。