图文多模态大模型综述

本文回顾图文多模态大模型的关键进展,包括CLIP、ViLT、VLMo等模型。CLIP采用双塔结构,而ViLT使用单塔结构,VLMo结合两者优点。这些模型遵循预训练-微调方案,通过不同方式融合图像和文本信息,以处理多模态任务。随着技术发展,多模态大模型已成为深度学习热点,未来将在多模态信息处理中发挥更大作用。
摘要由CSDN通过智能技术生成

自去年底ChatGPT发布后,大模型技术呈井喷式发展态势,学术界和工业界几乎每天都在刷新各个方向的SOTA榜单。随着大模型技术的发展,人们逐渐意识到多模态将是大模型发展的必经之路。其中,图文多模态大模型是一种结合了图像和文本两种模态信息的深度学习模型,本文将重点回顾这一领域的关键进展。

纵观多模态大模型的技术演进,也完全遵循了预训练-微调的整体方案。根据预训练模型中图文模态的交互方式,主要分为以下两种:

  • 双塔结构:代表架构是 CLIP。双塔即一个视觉 Encoder 建模图片信息,一个文本 Encoder 建模文本信息,图像和文本的特征向量可以预先计算和存储,模态交互是通过图像和文本特征向量的余弦相似度来处理。这类模型的优点是处理多模态检索任务,但无法处理复杂的分类任务;

  • 单塔结构:代表架构是ViLT。单塔即一个视觉-文本 Encoder 同时建模图片信息和文本信息,使用 Transformer 模型对图像和文本特征进行交互。这类模型的优点是可以充分地将多模态的信息融合,更擅长做多模态分类任务,检索任务较慢。

CLIP

CLIP由 OpenAI 构建,作为多模态领域的经典之作,被广泛应用于当今多模态模型的基础模型。CLIP通过自监督的方式,使用 4亿对(图像,文本)数据进行训练,它将图像和文本映射到一个共享的向量空间中,从而使得模型能够理解图像和文本之间的语义关系,这是一种从自然语言监督中学习视觉模型的新方法。

CLIP模型主要由两部分组成:Text Encoder 和 Image Encoder。这两部分可以分别理解成文本和图像的特征编码器。CLIP的预训练过程如下所示:

ba6e09f80c991baff06643a23348e9dd.png

图1 CLIP的预训练过程

给定一个Batch的N个(图片,文本)对,图片输入给Image Encoder得到表征 , , ..., ,文本输入给 Text Encoder 得到表征  , , ..., ,(, ) 属于是正样本, (, ) 属于负样本。最大化 N 个正样本的 Cosine 相似度,最小化 N2 -N 个负样本的 Cosine 相似度。

CLIP是从头训练它的 Text Encoder(GPT-2) 和 Image Encoder (ViT),同时使用线性投影 (权重为, ) 将每个编码器的表征映射到多模态的嵌入空间。

ViLT

ViLT 受到 ViT 中 patch projection 技术的启发,希望最小化每个模态的特征提取,因此使用预训练的ViT来初始化交互的 Transformer,这样直接利用交互层来处理视觉特征,无需额外新增视觉 Encoder,把主要的计算量都集中在了 Transformer 的特征融合部分。

下图是ViLT的模型架构:

814b798e2868ea174d49a85432c4a348.png

图1 ViLT模型架构

文本输入通过Word Embedding 矩阵 Embedding化,然后和 Position Embedding 相加,最后和 Modal-type Embedding Concate;

图像输入通过分块操作分成 C x

《大模型技术进化论:多模态模型综述》是一篇系统阐述多模态模型技术进化的综述性论文。多模态模型是指通过整合多种不同的数据形式和类型,构建出更复杂、更完整的模型,以提高模型的表现和性能。 该论文首先介绍了大模型技术的背景和发展动力。随着数据规模的快速增长和多源数据的丰富性,传统的单一模态模型已经面临着一系列的挑战,无法完全适应现实世界中的复杂情况。因此,多模态模型的出现成为了解决这一问题的有效手段。 随后,论文针对多模态模型的构建过程进行了详细的讨论。首先介绍了多模态数据的采集与预处理方法,包括各种传感器和设备的应用,以及数据对齐和归一化等技术。然后,论文详细介绍了多模态特征提取、融合和表示学习方法,包括传统的特征提取算法和深度学习方法等。 接着,论文重点讨论了多模态模型在各个领域的应用。例如,在计算机视觉领域,多模态模型能够通过融合图像和文本数据,实现更准确的图像分类和目标检测。在自然语言处理领域,多模态模型能够通过融合文本和语音数据,实现更准确的情感分析和语音识别。此外,还介绍了多模态模型在医学、金融、推荐系统等领域的应用。 最后,论文总结了多模态模型技术的优势和挑战,并展望了未来的研究方向。多模态模型技术的优势在于可以综合利用不同数据源的信息,提高模型的鲁棒性和泛化能力。然而,多模态模型技术面临着数据集规模和计算复杂度的挑战,需要进一步研究和改进相应的算法和技术。 综上所述,《大模型技术进化论:多模态模型综述》通过系统的介绍了多模态模型技术的构建过程、应用领域和发展前景,对相关研究和应用人员具有重要的参考价值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Linux基金会AI&Data基金会

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值