在SQuAD2.0榜单上出现过的部分模型详解StructBert,T5,RoBERTa,RetroReader,ALBert

文章目录StructBertWord Structural ObjectiveSentence Structural ObjectiveT5Text-to-TextC4数据集——Colossal Clean Crawled Corpus (超大型干净爬取数据)试验结论RoBERTa: A Robustly Optimized BERT Pretraining Approach改进方法模型规模、算力与数据效果与总结ALBert改进方法Factorized embedding parameterizationC
摘要由CSDN通过智能技术生成

StructBert

StructBert: Incorporating Language Structures Into Pre-Training For Deep Language Understanding(Alibaba 2019)

基于bert的预训练模型,从预训练任务的角度修改bert

保留WordPiece, absolute positional encoding 等bert相关特性

贡献:

  • 将两个新型的预训练任务加入bert原始预训练任务

  • 去掉NSP任务

成果:GLUE top 1

Word Structural Objective

输入一个句子中打乱的单词,好的语言模型可以学习到正确的顺序

下面这k=3,表示打乱的顺序在正确的顺序绝对位置不超过3。

研表究明,汉字序顺并不定一影阅响读。比如当你看完这句话后,才发这现里的字全是都乱的。

Larger K,比较难,噪声多

Smaller K,任务简单,噪声少

image-20211104140539547

image-20211104140554023

Sentence Structural Objective

image-20211104161608923

构造句对三分类任务:

  • 1/3:上下句,label 1
  • 1/3:上下句逆序,label 2
  • 1/3:不同文档的句子,label 0

T5

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(Google 2019)

  • 一个通用的框架,相对于一个综述

  • C4数据集

  • 大量前人想做却没做的实验(70+)

  • 得到一些有意义的结论

  • 各种任务的新baseline

Text-to-Text

将所有NLP 任务都转化成 Text-to-Text (文本到文本)任务

image-20211104162037740

相同的模型

相同的损失函数

相同的训练过程

相同的解码过程

C4数据集——Colossal Clean Crawled Corpus (超大型干净爬取数据)

每周约爬取20TB的WEB数据,对数据进行处理:

  • 取结尾有标点的句子
  • 去掉包含脏话的网页
  • 去掉包含Javascript的句子
  • "lorem ipsum"是一个测试网页排版的拉丁文,去掉包含这个占位符的网页
  • 去掉包含代码片段的网页
  • 以三句为一个片段进行去重
  • 去掉非英文的网页

最终生成750GB的数据集

试验结论

  • Spanbert span=3 15%

  • C4 数据集 大量数据无重复样本

  • 模型越大越好,但是考虑实际环境,提供5个大小不一的模型级别

  • 混合多任务预训练 Example proportional mixing

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值