StructBert
StructBert: Incorporating Language Structures Into Pre-Training For Deep Language Understanding(Alibaba 2019)
基于bert的预训练模型,从预训练任务的角度修改bert
保留WordPiece, absolute positional encoding 等bert相关特性
贡献:
-
将两个新型的预训练任务加入bert原始预训练任务
-
去掉NSP任务
成果:GLUE top 1
Word Structural Objective
输入一个句子中打乱的单词,好的语言模型可以学习到正确的顺序
下面这k=3,表示打乱的顺序在正确的顺序绝对位置不超过3。
研表究明,汉字序顺并不定一影阅响读。比如当你看完这句话后,才发这现里的字全是都乱的。
Larger K,比较难,噪声多
Smaller K,任务简单,噪声少
Sentence Structural Objective
构造句对三分类任务:
- 1/3:上下句,label 1
- 1/3:上下句逆序,label 2
- 1/3:不同文档的句子,label 0
T5
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(Google 2019)
-
一个通用的框架,相对于一个综述
-
C4数据集
-
大量前人想做却没做的实验(70+)
-
得到一些有意义的结论
-
各种任务的新baseline
Text-to-Text
将所有NLP 任务都转化成 Text-to-Text (文本到文本)任务
相同的模型
相同的损失函数
相同的训练过程
相同的解码过程
C4数据集——Colossal Clean Crawled Corpus (超大型干净爬取数据)
每周约爬取20TB的WEB数据,对数据进行处理:
- 取结尾有标点的句子
- 去掉包含脏话的网页
- 去掉包含Javascript的句子
- "lorem ipsum"是一个测试网页排版的拉丁文,去掉包含这个占位符的网页
- 去掉包含代码片段的网页
- 以三句为一个片段进行去重
- 去掉非英文的网页
最终生成750GB的数据集
试验结论
-
Spanbert span=3 15%
-
C4 数据集 大量数据无重复样本
-
模型越大越好,但是考虑实际环境,提供5个大小不一的模型级别
-
混合多任务预训练 Example proportional mixing