多模态大模型最全综述导读

多模态大模型最新研究综述简单版。

不知道最近微软出的多模态大模型最全综述 Multimodal Foundation Models: From Specialists to General-Purpose Assistants 大家有没有看~

包含5大主题一共119页,内容又干又多,目前网上找到的中文解读干货内容都比较全比较长,很容易迷失其中,一直难以看完。

本期来给大家做一个这篇论文相对简单的导读;如果大家有想要着重了解部分或感兴趣的内容可以先针对性地看。

下面是一个快捷目录。

1. 章节分布

2. 具体内容解读

章节分布

论文从目前已经完善的和还处于最前沿的两类多模态大模型研究方向出发,全面总结了五个具体研究主题:

  • 视觉理解

  • 视觉生成

  • 统一视觉模型

  • LLM加持的多模态大模型

  • 多模态agent

这里瓦力画了一个比较简单的图,大致总结一下各个主题的内容,大家可以参考。

具体内容解读

具体的模型、算法大家都可以针对性地自己了解,这里先给大家总结一些比较关键的点:

1. 语言或视觉多模态的开发路线

上述四个类别中,第一类是任务特定模型,后面三类属于基础模型。

下面以语言为例,聊聊AI的演进趋势:

  • Task-Specific Models:可以对标以前LSTM/RNN时代,需要一个任务训练一个模型。

  • Pre-trained Models:transformer(BERT、GPT)时代,先有预训练的权重,再继续适配下游任务进行一次训练,但还是不同下游任务适配的不一样权重;这个时代大家站transformer比较多,GPT此类单向注意力的模型一般在生成任务且要求序列生成较稳定的情况下使用。

  • Unified Models with Emerging Capabilities开始,GPT3已经展现了一些涌现能力。

  • General-purpose Assistant时代:OpenAI坚定地走了GPT路线,并对生成结果进行了对齐,ChatGPT就此诞生了~

2. 多模态中经典的5个问题

论文中回答了经典的5个问题,也阐述了多模态基础模型旨在解决的三个代表性问题:视觉理解任务、视觉生成任务和具有语言理解和生成的通用界面。

Q1:如何学习视觉表示?

Q2:如何做视觉生成?

Q3:如何不基于大语言模型训练一个通用视觉模型?

Q4:如何训练多模态大语言模型

Q5:如何为大语言模型链接一个多模态专家?

下面是论文中各章节及经典的模型推荐,其中橙色的部分,也就是视觉理解主题部分回答了Q1;绿色的部分,视觉生成主题部分回答了Q2;蓝色的部分,回答了Q3~Q5。

下面我从文章摘取一些内容简单回答来上述5个问题,如果大家需要详细了解的话可以从上图中对应章节去研读:

Q1:如何学习视觉表示?

下图比较清晰的展现了现有的四种方法:

此外,论文中还列出了上述方法的代表模型。

  • 监督学习

  • 对比语言-图像预训练

  • 纯图像自我监督学习(对比学习、非对比学习)

  • 掩码图像建模

Q2:如何做视觉生成?

现有方法的代表模型。

1) 具有代表性的文本到图像生成模型

2)经典的扩散模型架构

3)未来研究趋势:统一调优,实现人工对齐

具体又可以分为这三个方向:

  • 统一的图像和文本输入。

  • 调整以对齐为中心的损失和奖励。

  • 多模态内容理解和生成的闭环。

Q3:如何不基于大语言模型训练一个通用视觉模型?

现有方法的代表模型。

1)从封闭集到开放集

通过引入对比语言-图像预训练方法来训练开放集模型,解决了传统封闭集模型的局限性。如图 4.2 (a) 所示,CLIP 不是学习从输入到标签的映射,而是使用数亿个图像-文本对学习对齐的视觉语义空间。

2)从特殊任务到通用

可分为I/O Unification 和Functionality Unification,也就是I/O统一和功能统一。

  • **I/O统一:**使用分词器将各种任务中使用的不同模式的原始输入和输出 (I/O) 分词化为连贯的序列(视觉或文本)分词,然后利用统一的序列到序列模型。

  • **功能统一:**最近许多研究都使用了类似于transformer 的 Encoder-Decoder 架构,需要复杂的模型设计来适应各种任务。

3)从静态到可提示

这里的研究主要是一些增强静态视觉模型的能力,目的是为了支持:(i) 多模态提示;(ii) 上下文提示。

Q4:如何训练多模态大语言模型?

这里文中举了两个例子:

1)LMM 使用图像-文本成对实例进行训练

大多数 LMM 都是在大量图像-文本对上训练的,其中每个训练样本都是一对。

2)使用交错图像文本序列实例训练的 LMM。

论文中以Flamingo为例, Flamingo 使用仅来自 Web 的互补大规模多模态数据的混合进行训练,而不使用任何用于机器学习目的的注释数据。训练完成后,Flamingo可以通过简单的few-shot learning 直接适应视觉任务,而无需任何额外的任务特定调整。

Q5:如何为大语言模型链接一个多模态专家?

这里以MM-ReAct为例,其系统范式由 Chat GPT 组成了多模态工具,用于多模态推理和动作。通过使用各种多模态工具增强纯语言的 ChatGPT,MM-REACT 支持多模态的输入和输出,包括文本、图像和视频。

再下面是MM-REAC涌现的多模态推理和动作功能。

那么论文的简单导读就是这样了,如果大家觉得论文过长文本看不进去还可以看论文中1.4节附上的视频,B站和youtube都有;虽然是英文的,但结合PPT整体看下来是比较容易理解的。

参考文献:

[2309.10020] Multimodal Foundation Models: From Specialists to General-Purpose Assistants (arxiv.org)

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。
致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!

喜欢的话,请点个赞👍和关注吧~

本文转自 https://mp.weixin.qq.com/s/WS4uR713p6PD6fldNVVjLg,如有侵权,请联系删除。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值