两年来预训练模型（PTM）的技术进展

最新推荐文章于 2024-01-22 14:31:31 发布

Wennnwin

最新推荐文章于 2024-01-22 14:31:31 发布

阅读量1.3k

点赞数

分类专栏： nlp 文章标签： nlp 机器学习

本文链接：https://blog.csdn.net/chloexxx/article/details/108996371

版权

nlp 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一、预训练模型中的强基准：RoBERTa

下图说明RoBERTa效果优于BERT large，相同数据下超过XLNet。
在这里插入图片描述

对比原始BERT模型，RoBERTa模型的不同：
1、进一步增加预训练数据数量，能够改善模型效果；
2、延长预训练时间或增加预训练步数，能够改善模型效果；
3、急剧放大预训练Batch Size，能够明显改善模型效果；
4、拿掉预训练任务中的Next Sentence Prediction子任务，它不必要存在；
5、输入文本的动态Masking策略有帮助；

二、五种常见的模型结构

含带常见的自监督的学习方法包括AutoEncoding(简称AE)和AutoRegressive(简称AR)。AE即双向语言模型，而AR则代表从左到右的单向语言模型。

2.1 Encoder-AE结构

是个采用双向语言模型的单Transformer结构，比较适合做语言理解类的任务。（典型应用如BERT）
在这里插入图片描述

2.2 Decoder-AR结构

是个采用单向语言模型的单Transformer结构，比较适合做语言生成类的任务。（典型应用如GPT）
在这里插入图片描述

2.3 Encoder-Decoder结构

将适合语言理解的Encoder-AE和适合做语言生成的Decoder-AR相结合。

在这里插入图片描述

2.4 Prefix LM

相当于Encoder-Decoder的变体，不同之处在于Encoder和Decoder分享同一个Transformer。这种分割占用是通过在Transformer内部使用Attention Mask来实现的。因此模型较轻，但是语言生成类任务的效果弱于Encoder-Decoder。
在这里插入图片描述

2.5 Permuted Language Model(PLM)

最早在XLNet论文中提到。语言理解类任务不如Encoder-AE；语言生成类任务略优于Encoder-AE，但远不如Decoder-AR。

PLM预测流程：
1、首先进行单词顺序随机变换
2、选定末尾部分单词Mask
3、按照变换后句中顺序来预测

注意：与AE的主要区别
PLM中先Mask的单词对后Mask的单词的预测有作用；标准AE认为Mask的单词均独立互不作用。

在这里插入图片描述

三、模型效果影响因素及对比

3.1 影响因素

在这里插入图片描述

独特的预训练方法：ELECTRA
ELECTRA联合训练了小的生成器以及大的判别器，它强迫判别器对生成器产生的所有单词判断其是否经过改写。模型的收益也来自全部单词参与训练这一步。
在这里插入图片描述

3.2 各模型对比

预测若有一个模型Model X采纳上述所有有效因素即可获得当前技术水准下的最好模型效果。
在这里插入图片描述

四、其他领域的预训练

4.1 显示知识的引入

目的在于让预训练模型能够编码更多的结构化知识或者语言知识。

4.1.1 百度ERNIE

使用比如命名实体识别工具／短语识别工具，将输入中的命名实体或者部分短语Mask掉，这些被Mask掉的片断，代表了某种类型的语言学知识，通过这种方式，强迫预训练模型去强化地学习相关知识。

在这里插入图片描述

4.1.2 清华ERNIE

我们已经有些结构化知识或者实体关系知识等现成的外部知识库，在预训练的过程中：
1、通过工具找出句中的命名实体（entity）
2、句中的命名实体触发知识库中其它相关实体
3、预训练模型通过特殊的结构，来融合文本和结构化知识，以进一步促进语言的理解
在这里插入图片描述

4.2 多模态训练

除了传统文字外，融合图片、视频、音频等多模态信息。例如VQA（给定图片并提问，AI回答），Caption-Based Image Retrieval（输入图片生产/找到对应文字描述）。
相对自由文本预训练来说，多模态预训练需要模态对齐训练数据。
目前的多模态预训练任务中，通常都是双模态预训练。