文献记录－RoBERTa: A Robustly Optimized BERT Pretraining Approach

最新推荐文章于 2023-12-09 20:42:11 发布

wenqiang su

最新推荐文章于 2023-12-09 20:42:11 发布

阅读量769

点赞数 1

分类专栏：文献记录

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42681868/article/details/106699244

版权

文献记录专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文献地址：

https://arxiv.org/pdf/1907.11692.pdf

摘要：

本文对BERT模型中的超参数进行研究，对超参数和预训练的数据量上进行了优化．

简介：

研究内容：
（１）更大的模型，更多的训练批次，更多的训练数据
（２）删除了预训练过程中＂下一句预测＂的任务
（３）训练更长的序列（data）
（４）改变掩码模型

背景：

bert的优化算法中Adam中，β１＝０．９，　β２＝０．９９９，epsilon = 1e-6
预训练数据是用的英文的维基百科做的无监督学习训练的

实验：

研究了学习率，预热步骤，Adam epsilon参数的影响
数据方面使用更合适的预训练数据集的质量和数量

分析：

１：静态和动态mask

在原始的bert中，mask的方式是通过选出随机的１５％的输入token去mask,这１５％的token中又有８０％的的token会被替换为 “[MASK]”, 10%替换为随机token,另外10保持不变．

但是原始的mask只在训练开始之前mask了一次，并在训练期间保存．这会导致一个问题，所谓的随机选择是不是对所有的token都进行了一个研究，还是之研究了部分的token（只有4个epochs的情况下）

本文把原始的mask方式称为静态mask　（Static ）

为了减弱这个问题，本文对所有数据复制了１０次，这样对同一个序列去mask的时候就会有１０种mask的方式，这样就可以尽可能的涵盖所有的mask方式，从而捕捉序列的大部分信息．

在这里插入图片描述从上图的实验结果来看＂稍稍提升＂，后面的实验都会使用动态掩码（dynamic mask）

2: 模型输入格式和ＮＳＰ

原始的BERT的句子对（有50%是真的，有50％是假的）是来自与同一个文本或者不同的文本中采样的，除了MLM任务外，还训练了模型去预测NSP的任务，去预测句子对中的下一句是否是下一句．

预训练中NSP损失是否真的有效需要研究，具体如下：

SEGMENT-PAIR+NSP：每个输入样例是一对段落对，每个段落对由多个自然句组成
SENTENCE-PAIR+NSP：每个输入样例是一对句子对，并增大了BATCH
FULL-SENTENCES：每个输入样例是512个token(可跨文本)，并取消了NSP的LOSS
DOC-SENTENCES：和FULL-SENTENCES大部分一样，只是不会去跨文本取样，所以一个样板可能会少于512个token．

在这里插入图片描述对比SEGMENT-PAIR　和　SENTENCE-PAIR，后者的下游任务性能降低，可能是因为单句对无法学习到远程依赖．

而去除了NSP损失之后，下游任务的效果提升了

对比跨文档取样和单文档取样的文档训练结果，单文档会略优，但是区别不大

3：用更大的BATCH去训练

在这里插入图片描述
更大的bsz对下游任务有一点点提升，本文后面的工作是用８Ｋ的bsz.

4：Encoding

在原有的词语基础上对原有的词语提取subword

ROBERTA

在这里插入图片描述
可以看到在增加预训练数据，增大BATCH_SIZE，增加训练步数的情况下，下游任务性能有明显的提高．

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
文献记录－RoBERTa: A Robustly Optimized BERT Pretraining Approach

摘要：本文对BERT模型中的超参数进行研究，对超参数和预训练的数据量上进行了优化．简介：研究内容：（１）更大的模型，更多的训练批次，更多的训练数据（２）删除了预训练过程中＂下一句预测＂的任务（３）训练更长的序列（data）（４）改变掩码模型背景：实验：分析：...
复制链接

扫一扫

专栏目录

wenqiang su CSDN认证博客专家 CSDN认证企业博客

码龄6年

74: 原创

8万+: 周排名

206万+: 总排名

9万+: 访问

: 等级

1217: 积分

12: 粉丝

17: 获赞

9: 评论

116: 收藏

私信

关注

热门文章

分类专栏

English
报错记录 1篇
文献记录 7篇
数据结构 1篇
比赛 4篇
Tensorflow2.0 11篇
前端 2篇
Pytorch 18篇
Paddle 7篇
数据库 2篇
spider 1篇
机器学习 11篇
深度学习 4篇
java 3篇
python 3篇
爬虫 2篇
大数据 3篇
数据分析 1篇
scala

最新评论

pytorch-transformers （BERT）微调
lyn_CS: 直接torch.save(model, PATH)，下次调用时直接model = torch.load(PATH)
pytorch-transformers （BERT）微调
lyn_CS: 你看一下transformers的文档，里面有说到怎么保存和加载模型。训练好的模型保存起来，就可以直接用 # Saving best-practices: if you use defaults names for the model, you can reload it using from_pretrained() if args.do_train and (args.local_rank == -1 or torch.distributed.get_rank() == 0): # Create output directory if needed if not os.path.exists(args.output_dir) and args.local_rank in [-1, 0]: os.makedirs(args.output_dir) logger.info("Saving model checkpoint to %s", args.output_dir) # Save a trained model, configuration and tokenizer using `save_pretrained()`. # They can then be reloaded using `from_pretrained()` model_to_save = model.module if hasattr(model, 'module') else model # Take care of distributed/parallel training model_to_save.save_pretrained(args.output_dir) tokenizer.save_pretrained(args.output_dir) # Good practice: save your training arguments together with the trained model torch.save(args, os.path.join(args.output_dir, 'training_args.bin'))
pytorch-transformers （BERT）微调
书屋里的咸鱼: 请问您知道训练完成后的bert怎么保存以用于其他的下游任务吗？
pytorch学习笔记-入门-定义网络
Tisfy: 深得人心，正如古人云：欲买桂花同载酒，终不是、少年游。
TF2-Wide&Deep-subclass
ctotalk: 感谢分享

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。