在SQuAD2.0榜单上出现过的部分模型详解StructBert，T5，RoBERTa，RetroReader，ALBert

最新推荐文章于 2023-12-05 21:09:02 发布

smallBrilliant

最新推荐文章于 2023-12-05 21:09:02 发布

阅读量1.3k

点赞数

分类专栏：文献笔记 NLP 文章标签： bert 深度学习自然语言处理

本文链接：https://blog.csdn.net/qq_43149766/article/details/121223330

版权

文章目录StructBertWord Structural ObjectiveSentence Structural ObjectiveT5Text-to-TextC4数据集——Colossal Clean Crawled Corpus （超大型干净爬取数据）试验结论RoBERTa: A Robustly Optimized BERT Pretraining Approach改进方法模型规模、算力与数据效果与总结ALBert改进方法Factorized embedding parameterizationC

摘要由CSDN通过智能技术生成

StructBert

StructBert: Incorporating Language Structures Into Pre-Training For Deep Language Understanding（Alibaba 2019）

基于bert的预训练模型，从预训练任务的角度修改bert

保留WordPiece， absolute positional encoding 等bert相关特性

贡献：

将两个新型的预训练任务加入bert原始预训练任务
去掉NSP任务

成果：GLUE top 1

Word Structural Objective

输入一个句子中打乱的单词，好的语言模型可以学习到正确的顺序

下面这k=3，表示打乱的顺序在正确的顺序绝对位置不超过3。

研表究明，汉字序顺并不定一影阅响读。比如当你看完这句话后，才发这现里的字全是都乱的。

Larger K，比较难，噪声多

Smaller K，任务简单，噪声少

Sentence Structural Objective

构造句对三分类任务：

1/3：上下句，label 1
1/3：上下句逆序，label 2
1/3：不同文档的句子，label 0

T5

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer（Google 2019）

一个通用的框架，相对于一个综述
C4数据集
大量前人想做却没做的实验（70+）
得到一些有意义的结论
各种任务的新baseline

Text-to-Text

将所有NLP 任务都转化成 Text-to-Text （文本到文本）任务

相同的模型

相同的损失函数

相同的训练过程

相同的解码过程

C4数据集——Colossal Clean Crawled Corpus （超大型干净爬取数据）

每周约爬取20TB的WEB数据，对数据进行处理：

取结尾有标点的句子
去掉包含脏话的网页
去掉包含Javascript的句子
"lorem ipsum"是一个测试网页排版的拉丁文，去掉包含这个占位符的网页
去掉包含代码片段的网页
以三句为一个片段进行去重
去掉非英文的网页

最终生成750GB的数据集

试验结论

Spanbert span=3 15%
C4 数据集大量数据无重复样本
模型越大越好，但是考虑实际环境，提供5个大小不一的模型级别
混合多任务预训练 Example proportional mixing

最低0.47元/天解锁文章

smallBrilliant

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
在SQuAD2.0榜单上出现过的部分模型详解StructBert，T5，RoBERTa，RetroReader，ALBert

文章目录StructBertWord Structural ObjectiveSentence Structural ObjectiveT5Text-to-TextC4数据集——Colossal Clean Crawled Corpus （超大型干净爬取数据）试验结论RoBERTa: A Robustly Optimized BERT Pretraining Approach改进方法模型规模、算力与数据效果与总结ALBert改进方法Factorized embedding parameterizationC
复制链接

扫一扫

专栏目录