论文阅读RoBERTa: A Robustly Optimized BERT Pretraining Approach

最新推荐文章于 2025-01-04 01:00:00 发布

rotation ㅤ

最新推荐文章于 2025-01-04 01:00:00 发布

阅读量3.6k

点赞数 2

分类专栏：深度学习&机器学习文章标签：自然语言处理 RoBerta BERT

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fengxinlinux/article/details/109447004

版权

论文信息

题目

RoBERTa: A Robustly Optimized BERT Pretraining Approach
一个强力优化的BERT预训练方法

作者

Yinhan Liu，Myle Ott，Naman Goyal， Jingfei Du等

其他

论文下载地址：https://arxiv.org/abs/1907.11692?context=cs.CL

Abstract

这篇论文更像是一篇丰富的实验报告，作者发现BERT严重训练不足，若加大训练后，BERT性能会有很大的提升。
因此，作者从模型设计选择(design choice)、训练策略、语料等方面入手，重新对BERT进行了预训练，得到RoBERTa。实验结果表明RoBERTa在GLUE、RACE和SQuAD都达到了SOTA。这些结果突出了以前被忽略的设计选择的重要性。

Introduction

ELMo、GPT、BERT、XLM等方法虽取得了很大的性能提升，但是很难说清，这么方法中，哪一部分起到最关键的作用。

作者对BERT的预训练过程进行了复现研究，对超参数和训练集的大小的影响进行了评估。

经过实验，作者发现BERT严重训练不足，并提出了训练BERT模型的诀窍，将优化后的模型称为RoBerta，超越了所有现有BERT改进模型。

相比原BERT模型，该文提出的训练的改进方法：

训练更久，增加batch size和数据。
移除BERT中的NSP任务
训练更长的序列
根据训练数据动态调整mask方案

RoBERTa在GLUE任务上，创造了4项新的SOTA记录，并在SQuAD和RACE上也与SOTA水平相匹配。

该文章的贡献总结：

提出一系列重要的BERT设计选择和训练策略。
使用新的更大的数据集CC-NEWS，证明了更多的训练数据能够进一步提升BERT模型在下流任务中的表现。
实验结果表明，masked language model在正确的模型设计配置下，比最近提出的其他模型方法都要好。

Background

作者首先回顾介绍了BERT模型的一些内容，本文在这里省略。

Experimental Setup

该节介绍了实验的一些设置

Implementation

作者使用FAIRSEQ复现BERT，但改变了学习率的峰值以及学习率预热的步数，根据不同的设置调整数值，其他超参数与原BERT相同。

作者发现训练时模型对Adam的ε系数敏感，有时通过调整该系数会取得更好的稳定性。当以较大的batch size训练时，将正则项系数β2=0.98也能提升模型稳定性。

Data

作者实验使用了五种大小和领域不同的英语语料库，总计超过160GB的未压缩文本。

数据集：
在这里插入图片描述

Evaluation

使用GLUE、SQuAD、RACE三类任务进行评估。

Training Procedure Analysis

该章节探索和量化什么样的设置对于预训练BERT是重要的。

作者实验的模型初始设置与

最低0.47元/天解锁文章

博客等级

码龄9年

98
原创

1168
点赞

3784
收藏

483
粉丝

关注

私信

热门文章

分类专栏

最新评论

json for modern c++的使用
yvqiha_Tom: using json = nlohmann::json; 报错怎么回事
cJSON的使用方法
kk_max1996: 第一个创建json数据串的例程代码里面，cJSON_Delete(usr); 这一行前面少了一句 free(out);
Python切片与迭代总结
qq_39164855: 很详细，膜拜大佬
c++initializer_list详解
你会吗我不会: 请问后面的构造函数MyNumber为什么参数是常量引用呢？作用是什么
c++类的大小计算
weixin_58857104: cout << "A=" << sizeof(A) << endl; //result=1 空类占1字节 cout << "B=" << sizeof(B) << endl; //result=16 8(char字节占1，内存对齐1+7)+8（基类虚函数表指针） = 16 cout << "C=" << sizeof(C) << endl; //result=16 8(char字节占1，内存对齐1+7)+8（基类虚函数表指针） = 16 cout << "D=" << sizeof(D) << endl; //result=24 //+基类A的空间为：0（当空类作为基类时，只要不会与同一类型的另一个对象或子对象分配在同一地址，就不需要为其分配任何空间） //+基类C的空间为：8(char字节占1，内存对齐1+7)+8（基类虚函数表指针） //+D的空间为：8(char字节占1，内存对齐1+7) cout << "E=" << sizeof(E) << endl; //result=40 //+基类B的空间为：8(char字节占1，内存对齐1+7)+8（基类虚函数表指针） //+基类C的空间为：8(char字节占1，内存对齐1+7)+8（基类虚函数表指针） //+E的空间为：8（int字节占4，内存对齐4+4）

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。