多模态预训练模型学习

最新推荐文章于 2024-07-26 13:24:37 发布

正在加载中.......

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量3k

点赞数 1

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/qq_44609058/article/details/123598689

版权

一、什么是预训练？

目前随着数据量爆炸式的增长，靠人工去标注更多数据是非常昂贵，并且也不太现实的。因此预训练的方式就出现了，也逐渐成为了一种主流的方法。那到底什么是预训练呢？简单地说，预训练就是：“使用尽可能多的训练数据，从中提取出尽可能多的共性特征，从而能让模型对特定任务的学习负担变轻。”

预训练将学习分成了两步：

1）首先将大量低成本收集的训练数据放在一起，经过某种预训方法去学习其中的共性知识 ；

2）然后，再使用相关特定域的少量标注数据进行微调，模型就可以从共性知识出发，学习这些特定领域数据的特性知识 。

举个例子，比如我们要学习“英文法律文书关键词提取”这个任务，最直接的方法就是直接从已经标注好的英文法律文书关键词的数据集上进行学习，这也就是深度学习里面最常见的一种学习方法——监督学习 ；还有一种方法就是，我们先在大量不需要标注的英文资料和法律资料上进行学习，然后再在标注好的“英文法律文书关键词”数据集上进行学习，由于我们在学习大量英文资料和法律资料的时候已经具备了一定的知识基础，所以在学习特定任务的时候就会有更高的效率，这就是“预训练+微调”的思路。通常情况下，“预训练+微调”的方法能够比传统监督学习的方法具有更快的拟合速度和更高的性能上限 。

二、NLP单模态预训练

在多模态预训练模型出现之前，预训练首先是在NLP中出现的，因为过去几年，文字数据是非常多的，所以不少研究者爬取了大规模的本文数据，基于这些大规模的文本数据，用一些简单的预训练任务进行预训练，然后在下游任务上进行微调，实现了非常好的效果。

下面简单的介绍一个NLP预训练中比较经典的模型——BERT：

Token Embedding：对输入的句子采用WordPiece embeddings之后的结果。

Segment Embedding：相邻句子采用不同的标志分隔，形如111111111100000011111100000。

Position Embedding：Transformer中的绝对位置编码，赋予句子中每个单词位置信息。

BERT的结构如上图所示，首先就是将三类embedding的结果进行相加得到输入，然后利用基于Transformer的结构对输入的特征进行建模。在预训练过程中，主要执行两个任务：

1）Mask LM ：在选择mask的15%的词当中，80%情况下使用mask掉这个词，10%情况下采用一个任意词替换，剩余10%情况下保持原词汇不变。MLM的任务就是去预测这些被mask的词，这个任务让模型学习了单词之间的建模 。

2）NSP （Next Sentence Prediction ） ：它将训练语料分为两类，一是将50%语料构建成正常语序的句子对，比如对于A-B句子对，B就是A的实际下一个句子，那么标记为isnext；二是将50%语料构建成非正常语序句子对，B是来自语料库的随机句子，标记为notnext。然后模型预测B到底是不是A句子的下一个句子，使模型具有句子级别的识别能力 。

通过这两个预训练任务，模型可以学习到语言领域上的一些通用知识，因此可以促进NLP领域下游任务的训练。

三、CV单模态预训练

CV领域中，和“微调+预训练”模式比较接近的方法，应该就是对比学习。对比学习同样用的是没有标注的数据，也就是说数据集里只有图片而没有标签。对比学习的目标是学习一个编码器，此编码器对同类数据进行相似的编码，并使不同类的数据的编码结果尽可能的不同 。也就是说对比学习本质上其实就是用了聚类的思想：缩小与正样本间的距离，扩大与负样本间的距离 。如下面的公式所示：

d(f(x),f(x+))<<d(f(x),f(x-))

其中d()代表样本之间的距离。

四、多模态预训练

在多模态领域中，由于高质量的多模态标注数据较少，所以这几年也出现了基于Transformer结构的多模态预训练模型，通过海量无标注数据进行预训练，然后使用少量的标注数据进行微调即可。

多模态预训练模型能够通过在大规模数据上的预训练学到不同模态之间的语义对应关系，比如对齐文本形式的“狗”和图片中的“狗”的语义信息。

目前的多模态预训练模型按照网络的结构分类，大致可以分为两类，第一类为单流（single-stream）模型 ，第二类为双流（two-stream）模型 。如上图所示，单流模型中，视觉特征和文本特征一开始就concat在一起，然后直接输入到Encoder中；双流模型就是将视觉特征和文本特征首先在两个独立的Encoder中进行编码，然后再输入到cross attention进行多模态特征的融合。

可关注博主FightingCV的文章了解详情：从多篇2021年顶会论文看多模态预训练模型最新研究进展 - 知乎| 作者为【FightingCV】公众号运营者。内容首发于PaperWeekly，转载请获得授权并标明出处文末有计算机视觉/多模态/深度学习交流群，群里每天都会进行论文分享！！！ ICCV、CVPR、NeurIPS、ICML论文解析汇总：http…https://zhuanlan.zhihu.com/p/425859974

正在加载中.......

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
多模态预训练模型学习

一、什么是预训练？目前随着数据量爆炸式的增长，靠人工去标注更多数据是非常昂贵，并且也不太现实的。因此预训练的方式就出现了，也逐渐成为了一种主流的方法。那到底什么是预训练呢？简单地说，预训练就是：“使用尽可能多的训练数据，从中提取出尽可能多的共性特征，从而能让模型对特定任务的学习负担变轻。”预训练将学习分成了两步：1）首先将大量低成本收集的训练数据放在一起，经过某种预训方法去学习其中的共性知识；2）然后，再使用相关特定域的少量标注数据进行微调，模型就可以从共性知识出发，学习这些特定领域数据的
复制链接

扫一扫