从零入门多模态大模型数据合成#datawhale AI夏令营

笔者入门深度学习已近一年,刚开始是做CV,然后去补充了机器学习、数据分析方面的知识,后来开始系统的学习nlp,也是在不断扩大自己的能力边界,寻找兴趣所在吧。“多模态”这个概念早已听闻,但以往只是在项目中简单接触过相关概念,并未深入了解。这次参加datawhale主办的关于多模态大数据合成的AI夏令营,目的就是使自己踏足这个领域,完善知识体系,为自己未来的科研、项目提供更多可能性。这个博客的目是梳理知识脉络。

一.多模态概念与定义

  • 模态(Modality),指的是事物表达或感知的方式,也可以说是数据的一种形式,如图像、文本。
  • 多模态(Multimodel)是研究异构(heterogeneous)和相互连接的科学。通常意义的多模态学习,就是利用模型去同时处理多个模态数据,例如同时处理图文,图生文本、文本生图等。通过多模态大模型,可以更好地理解和处理复杂的多模态数据,提高人工智能的应用性能。

二.多模态研究发展历史

 

  • 行为主义时代(1970年代至20世纪80年代末):这一时期的研究主要关注人类的行为和认知过程,通过观察、实验等方法来探索人类如何处理和理解多模态信息。
  • 计算主义时代(20世纪80年代末至2000年):随着计算机技术的进步,这一时期的研究转向了利用计算机模型和算法来模拟人类的认知过程,特别是对自然语言处理和机器翻译等领域的研究取得了重要进展。
  • 互动主义时代(2000年至2010年):这一时期的研究强调了人与信息系统之间的互动,研究如何通过技术手段增强用户的交互体验,以及如何利用多模态信息进行有效的沟通和交流。
  • 深度学习时代(2010年至今):近年来,随着深度学习的快速发展,多模态研究进入了一个新的阶段。深度学习技术能够处理大量数据,并从多种模态中学习信息,从而在图像识别、语音识别、自然语言处理等领域取得了突破性进展。

三、多模态研究任务

上世纪以语音、视觉识别为主,现在人们专注于结合语言和视觉这两个模态,语言是理解世界和沟通思想的基础,视觉是感知世界的关键,二者的结合可以创造出更为复杂和强大的人工智能系统。具体任务又可以分为文本和图像的语义理解、图像描述、视觉定位、对话问答、视觉问答、视频的分类和识别、音频的情感分析和语音识别等。

四、多模态任务六大挑战

01 表示学习(Representation)

学习反应不同模态间交叉、交互的表示。包括融合(Fusion),协调(Coordination),分裂(Fission)等子挑战。

  • 融合:将不同模态信息结合在一起
  • 协调:让不同模态的信息可以协同工作
  • 分裂:将结合的信息重新拆分

举个栗子,现在Transformer架构可以把文本和图像的信息表示成token,就是表示学习 

02 对齐(Aligment)

对齐涉及识别与建模,多个模态元素之间的交叉模态连接,包括连接、对齐表示、分割等子挑战,以及显示、隐式对齐,个体元素的粒度问题。对齐确保了不同模态的信息能够被正确关联和理解。

03 推理(Reasoning)

多模态的推理是一个复杂的过程,它结合了知识和多个推理步骤。推理挑战包括结构、中间概念、外部范式、知识建模等子挑战。

04 生成(Generation)

生成挑战关注的是学习一种生成过程来产生原始模式,反映跨模态交互、结构和连贯性。包括摘要、翻译、创造等子挑战。

05 迁移(Transference)

迁移挑战涉及在模态之间转换知识,通过包括表示和生成的共同学习等子挑战,用一个模态的知识来增强另一个模态,以此提升另一个模态的性能和鲁棒性。

06 量化(Quantification)

量化就是对多模态学习的实证和研究,以此来更好地理解异构型,交叉学习交互和多模态学习的过程,包括异构型,异质性,交互和学习等子挑战。

五、多模态发展历程及经典工作

1.VILT

ViLT(Vision-and-LanguageTransformer),一种新型的视觉-语言预训练模型,它通过简化视觉输入处理摒弃了传统的卷积神经网络和区域监督方法。ViLT使用Transformer模块直接处理像素级输入,与文本输入的线性嵌入方式一致,显著提升了模型的效率和速度。实验证明,ViLT在视觉问答和图像-文本检索等任务上具有与现有模型相当或更优的性能,同时大幅减少了计算量和模型参数。此外,ViLT还首次在VLP训练中采用了整词Mask和图像增强技术,进一步提升了性能。该模型为视觉-语言研究提供了一个更高效、简化的新架构。

2.CLIP

CLIP(Contrastive Language-lmage Pre-training),通过从互联网上收集的4亿对图像-文本对进行预
训练学习而来。CLIP的核心创新在于直接利用自然语言作为监督信号,而非传统的固定类别标注数据。这种方法突破了传统计算机视觉系统对特定预定义类别的依赖,实现了在多种计算机视觉任务上的zero-shot迁移能力。CLIP通过对比学习框架,同时训练图像编码器和文本编码器,预测图像与其对应文本的正确配对。CLIP在超过30个不同的现有计算机视觉数据集上进行了基准测试,包括0CR、视频动作识别、地理定位和多种细粒度物体分类任务。结果显示,CLIP在大多数任务上都能非平凡地迁移,并且与全监督基线相当,无需特定数据集的训练。此外,CLIP在ImageNet上的零样本准确率与原始的ResNet-50相当,且未使用其训练中使用的128万张训练样本。

3.ALBEF

ALBEF(Align before Fuse)一种新型的视觉-语言表示学习框架,通过对比损失在融合前对齐图像和文本表示,以实现更准确的多模态学习。该方法无需边界框注释或高分辨率图像,采用动量蒸馏(MoD)自训练方法,从噪声网络数据中学习,提高预训练和下游任务的性能。ALBEF在多项视觉-语言任务上取得了最先进的结果,如图像-文本检索,视觉问答(VQA)和 NLVR 等,同时具有更快的推理速度。该框架提供了从互信息最大化角度的理论分析.

4.BLIP


BLIP(Bootstrapping Language-lmage Pre-training)一种新的多模态视觉-语言预训练框架,旨在统
一视觉-语言理解与生成任务。BLIP通过两个主要创新点实现性能提升:多模态混合编码器-解码器(MED)架构,它能够灵活地处理多种任务;其次是引入了标题生成和过滤(CapFilt)方法,通过生成合成标题并过滤噪声标题来优化从网络收集的噪声数据。BLIP在多项视觉-语言任务上实现了最先进的结果,包括图像-文本检索、图像字幕生成和视觉问答(VQA),并且在视频语言任务上展示了强大的零样本泛化能力。MED模型结合了图像编码器和文本编码器,通过图像-文本对比学习、匹配和条件语言建模三个目标进行联合预训练。capFilt方法则包含一个标题生成器,用于为网络图片生成合成标题,以及一个过滤器,用于移除原始网络文本和合成文本中的噪声。

5.LLaVA

LLaVA(Large Language and Vision Assistant),一个经过端到端训练的大型多模态模型,一个ViT和一个LLM经MLP连接,以实现通用的视觉和语言理解。为了改善多模态领域的指令跟随能力,作者首次尝试使用语言模型GPT-4生成语言-图像指令跟随数据通过在这些生成的数据上进行指令调整(instruction tuning,LLaVA在多模态对话任务上展现出了卓越的能力,与GPT-4相比在合成多模态指令跟随数据集上达到了85.1%的相对得分。此外,当在科学问答(Science QA)数据集上进行微调时,LLaVA与GPT4的结合达到了92.53%的新的最佳准确率,同时构建了两个具有挑战性的基准测试,以评估模型在多模态任务上的表现,这项工作为构建能够理解和执行视觉指令的通用视觉助手铺平了道路,并为未来的多模态研究提供了有价值的资源和基准.

参考资料:

【多模态简述】https://www.bilibili.com/video/BV12E421A76T?vd_source=aa9a281507e15da74af93ed3f943538e

一站式解读多模态——Transformer、Embedding、主流模型与通用任务实战_transformer 多模态-CSDN博客

ICML 2021 | ViLT:最简单的多模态Transformer-CSDN博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值