两年来预训练模型(PTM)的技术进展

一、预训练模型中的强基准:RoBERTa

  下图说明RoBERTa效果优于BERT large,相同数据下超过XLNet。
在这里插入图片描述

对比原始BERT模型,RoBERTa模型的不同:
1、进一步增加预训练数据数量,能够改善模型效果;
2、延长预训练时间或增加预训练步数,能够改善模型效果;
3、急剧放大预训练Batch Size,能够明显改善模型效果;
4、拿掉预训练任务中的Next Sentence Prediction子任务,它不必要存在;
5、输入文本的动态Masking策略有帮助;

二、五种常见的模型结构

  含带常见的自监督的学习方法包括AutoEncoding(简称AE)和AutoRegressive(简称AR)。AE即双向语言模型,而AR则代表从左到右的单向语言模型。

2.1 Encoder-AE结构

  是个采用双向语言模型的单Transformer结构,比较适合做语言理解类的任务。(典型应用如BERT)
在这里插入图片描述

2.2 Decoder-AR结构

  是个采用单向语言模型的单Transformer结构,比较适合做语言生成类的任务。(典型应用如GPT)
在这里插入图片描述

2.3 Encoder-Decoder结构

  将适合语言理解的Encoder-AE和适合做语言生成的Decoder-AR相结合。

在这里插入图片描述

2.4 Prefix LM

  相当于Encoder-Decoder的变体,不同之处在于Encoder和Decoder分享同一个Transformer。这种分割占用是通过在Transformer内部使用Attention Mask来实现的。因此模型较轻,但是语言生成类任务的效果弱于Encoder-Decoder。
在这里插入图片描述

2.5 Permuted Language Model(PLM)

  最早在XLNet论文中提到。语言理解类任务不如Encoder-AE;语言生成类任务略优于Encoder-AE,但远不如Decoder-AR。

PLM预测流程:
1、首先进行单词顺序随机变换
2、选定末尾部分单词Mask
3、按照变换后句中顺序来预测

注意:与AE的主要区别
PLM中先Mask的单词对后Mask的单词的预测有作用;标准AE认为Mask的单词均独立互不作用

在这里插入图片描述

三、模型效果影响因素及对比

3.1 影响因素

在这里插入图片描述

独特的预训练方法:ELECTRA
  ELECTRA联合训练了小的生成器以及大的判别器,它强迫判别器对生成器产生的所有单词判断其是否经过改写。模型的收益也来自全部单词参与训练这一步。
在这里插入图片描述

3.2 各模型对比

  预测若有一个模型Model X采纳上述所有有效因素即可获得当前技术水准下的最好模型效果。
在这里插入图片描述

四、其他领域的预训练

4.1 显示知识的引入

  目的在于让预训练模型能够编码更多的结构化知识或者语言知识。

4.1.1 百度ERNIE

  使用比如命名实体识别工具/短语识别工具,将输入中的命名实体或者部分短语Mask掉,这些被Mask掉的片断,代表了某种类型的语言学知识,通过这种方式,强迫预训练模型去强化地学习相关知识。

在这里插入图片描述

4.1.2 清华ERNIE

  我们已经有些结构化知识或者实体关系知识等现成的外部知识库,在预训练的过程中:
  1、通过工具找出句中的命名实体(entity)
  2、句中的命名实体触发知识库中其它相关实体
  3、预训练模型通过特殊的结构,来融合文本和结构化知识,以进一步促进语言的理解
在这里插入图片描述

4.2 多模态训练

  除了传统文字外,融合图片、视频、音频等多模态信息。例如VQA(给定图片并提问,AI回答),Caption-Based Image Retrieval(输入图片生产/找到对应文字描述)。
  相对自由文本预训练来说,多模态预训练需要模态对齐训练数据。
  目前的多模态预训练任务中,通常都是双模态预训练。

4.2.1 模型结构-双流交互模型

在这里插入图片描述

双流的含义:

文本编码器:代表一个流,一般采用Transformer模型捕捉文本单词之间的关系;

图片编码器:代表另外一个流,一般也是采用Transformer模型,对于图片来说,一般用Faster-RCNN模型识别出图片中包含的多个物体及其对应的矩形位置信息,将高置信度的物体及其对应的位置信息作为图片侧Transformer的输入,用来学习图片中物品的相互关系;

在两个流之上,再加入额外的Transformer模型,用于融合两个模态的语义映射关系。

模型目标:
1、文本预训练:类似标注Bert做法(可参看前文

2、图片预训练:Mask掉图片中包含的部分物品,要求模型正确预测物品类别或者预测物品Embedding编码

3、图片-文本对齐预训练:将对齐语料中的“文本-图片”作为正例,随机选择部分图片或者文本作为负例,来要求模型正确做二分类问题

4.2.2 模型结构-单流交互模型

单流和双流的区别在于:单流模型只用一个Transformer,而双流模型需要三个Transformer各自分工协作。

在这里插入图片描述

单流如何实现:输入的图片,经过上述的Faster-RCNN物体识别和位置编码后,和文本单词拼接整体作为Transformer模型的输入。

五、从两阶段模型到四阶段模型

在这里插入图片描述

5.1 第一阶段:通用预训练

  传统两阶段模式中的第一阶段,追求效果好及追求领域通用性
  优化目标:在尽可能多的下游任务场景中,效果都尽可能好,但不单独考虑某个特殊领域的效果如何。

5.2 第二阶段:领域预训练

  在第一阶段通用模型基础上,分别用各个领域数据,再分别做一次预训练,得到适合不同领域的预训练模型。
  特别注意灾难遗忘问题

5.3 第三阶段:任务预训练

  根据任务领域从第二阶段选择合适的预训练模型,用手头数据抛弃标签进行任务级别的预训练。

5.4 第四阶段:任务Fine-tuning

  即传统两阶段的第二阶段。

六、构造强大的预训练模型

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值