GPT-4o、SAM、DiT、DCN、SegGPT 作者共话多模态模型前沿进展 | 2024智源大会精彩回顾...

来源:智源社区

「多模态领域应该选哪些技术路线?视觉领域遵循scaling law么?如何看待“Encoder不可能三角”?未来训练多模态大模型的数据形式应该是怎样的?」

2024 年 6 月 15 日,智源大会第二天,GPT-4o、SAM、DiT、SegGPT、DCN 等重磅工作的作者共聚「多模态大模型」论坛,将本届智源大会的热度推向了高潮。嘉宾们介绍了多模态大模型领域最新的研究进展,分享了他们的经典名作和最新工作背后的思路和心得。论坛干货满满,参会者热情高涨,全场座无虚席。

c5849646a8ee36ade9596fd778f92fa4.jpeg

以下是核心内容整理:

论坛回放:https://event.baai.ac.cn/live/799

王鑫龙:生成式多模态模型

e2e8c658e2fcca1339ea91e5ec603960.jpeg

王鑫龙 | 智源研究院视觉模型研究中心负责人

人类处于由语言和视觉等多种模态构成的环境中,时刻接收多模态的上下文。人类依赖多模态的上下文理解能力完成日常任务。在语言模型领域,GPT系列的成功带来了在上下文中解决各种语言任务的能力,例如语言模型在训练后可以通过提供几个例子,即可在推理阶段完成未见过的任务。

如何将语言模型的优秀性能扩展到视觉领域?王鑫龙表示,图像说图像的语言 (Images speak in images)。2022年,智源尝试将图像作为接口统一各种视觉任务,实现了视觉的上下文理解,即给定几个例子,模型能较好地完成其它视觉任务。例如,在图像分割任务中,通过提供一张或少张图像,模型可以分割类似的视觉概念。

王鑫龙认为当前基于纯图像的上下文学习仍有局限性。首先,现有的数据集无法完全涵盖视觉任务的多样性;其次,与语言相比,图像中的上下文关系较为模糊。需要为图像手动构建复杂的上下文,以提升模型学习的能力。

在生成式多模态训练方面,智源尝试自回归地在多模态序列中预测“下一个”Token。例如,预测图像中的下一个Patch,视频中的下一帧,文本中的下一个词例 token,从而实现统一的生成式多模态训练。

生成式多模态模型研究目前面临的三个最关键的问题是:数据、编码器以及预训练。数据方面,需要探讨什么样的数据能够满足下一代多模态任务的需求,主要关注其形式和内容。编码器方面,包括分词器和语义编码器在内,需要了解哪些编码方式能够满足生成、理解以及统一多模态任务的需求。

人类在观看视频时,接受的是交错的视觉和文本数据,具有优秀的上下文相关性。在此启发下,智源探索了使用交错的文本-视频数据(interleaved data)。将一段描述性的视频中的文字与视觉图片对应起来,并在时间戳上对齐二者,可以提高模型性能。

为了保证数据质量,智源探索了CapsFusion技术,利用大模型按照指令有机地整合原始描述和合成描述,从结构有缺陷的原始描述中提取世界知识,同时与结构化但句法简化的合成字幕合并。智源利用该项技术创建了一个全面而精细的「图像-文本」数据集CapsFusion-120M。

关于编码器,智源思考了以下问题:编码器能达到什么规模?是否可以不使用编码器?编码器是否可以是稀疏的?受到Segment Anything项目的启发,智源探索了一个稀疏且支持提示(prompting)的分词器,可以根据需要对图像进行分词,实现按需输出;此外,智源探索了用patch作为视觉单元的可行性,结论是:去掉编码器在某些情况下可能带来新的思路,但会存在训练不稳定、性能较差等问题。最新的工作分别解决了这两个问题,使得我们可以去掉编码器取得较好的性能。

王鑫龙提到,在构建统一多模态模型时会遇到“不可能三角”的挑战:紧凑-无损-离散,三者无法同时满足。紧凑性,即用较少的token来表达图像或视频;无损性,即能够完美重建图像或视频;离散,即使用离散的token表示。目前只能同时满足其中的两个,实现所有三个目标仍然有技术瓶颈。

谢赛宁:AI是否需要更强的视觉基础来实现理解和语义表示

46b268c56b3a9979cdf099058c1bf489.jpeg

谢赛宁 | 纽约大学助理教授

科学家们在哲学层面上早有对“人工智能是否需要感知能力,以达到对意义的理解”等问题的讨论。例如,1990年Stevan Harnad对语义基础的看法:仅仅探讨语言或计算机代码等符号本质上是没有意义的,它们之所以具有意义,是因为与某种感官基础联系。13 世纪的Thomas Aquinas也有过类似的观点:没有任何东西会进入心灵,除非它先经过感知。因此,有些哲学认为感知是心智和认知的基础。但也有反方观点,例如Avicenna“空中人”的假设:一个人悬浮在空中,但仍然可以进行思考,涉及自我、数学、逻辑、哲学等与外界现实无关的事物。

谢赛宁认为,人工智能领域的研究者们也需要思考:“是否需要感官基础来提升理解能力?”ChatGPT等纯语言模型,只有文本输入和输出,缺乏类似人类的感官,如果为这些语言模型注入感知能力,是否能够提升它们的思维水平,进而更好地理解语言和意义?答案是肯定的,语言只是辅助,大部分人类和动物的知识都来自于对现实世界的感知和体验。

目前的语言模型虽然知识丰富,但仅凭语言理解世界,如同“盲人摸象”。需要更好的感知体验建模,才能进一步讨论语言模型的问题。 

使用OpenAI的CLIP模型作为视觉编码器是主流的构建多模态系统的路线。通过对 CLIP 模型进行基准测试,谢赛宁发现在 CLIP 模型表现不佳的场景下,多模态系统也表现得很差;而在 CLIP 模型表现较好的场景下,多模态系统的表现也相对较好。尽管研究者们通过扩展 CLIP 的规模取得了一些进展,但仍然需要更好的替代方案。

为了提升模型的视觉-语言理解能力,谢赛宁团队提出视觉搜索技术 V*,期望人工智能系统可以从背景中主动寻找目标,提高视觉搜索效率,显著降低模型的认知负荷。他的团队提出了“SEAL”(Show, Search, and Tell)框架,将视觉搜索能力整合到多模态模型中,开发了“Visual Search Model”,利用多轮交互和大模型指导视觉搜索。该系统通过递归搜索和图像切分,逐步提高分辨率,最终定位目标物体。Visual Search Model的核心架构包括一个用于问答的大型语言模型,它初始化了一个视觉工作记忆系统。当系统需要寻找某个物体时,会激活视图搜索模型,通过搜索获取相关信息,并将其存储在视觉工作记忆中。

谢赛宁团队还开发了一些新的基准测试和环境,如V-IRL(《V-IRL: Grounding Virtual Intelligence in Real Life》),将真实世界的地图、街景等各种信息融入Agent所在的虚拟世界,可以用于评估在真实环境中部署的多模态系统。

代季峰:多模态基础模型研究

9d664e7d0b11327dffaa060a5670288c.jpeg

代季峰 | 清华大学电子工程系副教授,上海人工智能实验室领军科学家

大模型已并在多方面带来显著变革。在语言任务上,大模型大幅降低了新开放式任务的处理成本。在安防领域,传统方法需要大量时间和资源来适应新任务,而如ChatGPT这样的模型则能高效应对开放式任务,显著提高生产力。但获取信息并非仅限于结构化语言,还需通过视觉与现实环境互动,因此大模型的多模态能力有望引发生产力的革新。

代季峰表示,在构建大规模多模态基础模型时,现有的图文对数据已难以支撑更大规模的预训练,图文成对数据中的语言部分内容薄弱。如果仅依赖这些数据进行训练,语言模型的性能可能会受损。

为此,清华大学和上海人工智能实验室构建了名为OmniCorpus的大规模图文交错数据集,该数据集包含丰富的中英文文本和图像,是目前国际上规模最大的此类数据集。另外提出多模态信息压缩学习,从语言模型的压缩学习概念入手,支持大规模图文交错数据的端到端预训练。其中压缩学习主要在图像层面进行。通过编码器提取变量表示后,压缩学习自动丢弃与学习目标无关的信息,从而优化学习效果。

代季峰认为,传统视觉语言基础模型范式已落后于大语言模型的发展,需要新的范式来推动其发展。为此,团队推出Intern VL模型,将视觉“看作”做强大的编码器,语言“看作”高阶智能的解码中心,有效使用数据和预训练算法来训练视觉与图文基础特征表征。模型开发中采用了潜在压缩学习方法训练视觉编码器,并引入了渐进式对齐策略。目前该模型已经开源至Hugging Face。

代季峰提到,现有的大语言/多模态模型只能输出文字,无法应对复杂多模态任务。为此,团队创建一个通用任务解码器VisionLLM v2,目标是使多模态模型能够以较低的边际成本广泛应用于各种视觉为核心的任务。VisionLLM v2首创向量链接技术,使得中心的多模态大模型可以调用数百种视觉或多模态工具。

代季峰团队还探索了AI与现实世界交互的新方向。基于强化学习的方法存在众多不足,大语言模型或大模型能有效弥补这些缺陷。从去年年初开始,他的团队选择了广受欢迎的开放世界游戏《我的世界》作为实验平台。在这个项目中,基于大语言模型的智能体相较于传统强化学习智能体在泛化和智能化方面展现出了显著优势。

肖特特:A Real-World Approach to Intelligence

6382f1ca233f07ea01fbda62ec2823a4.jpeg

肖特特 | Prompt AI联合创始人兼CEO,SAM作者

现实世界学习有两种,一种是观察或感知,涉及视觉、声音等元素;另一种是行动,通过与世界互动并从中学习,而人工智能要在现实世界中学习,需要物理的体现,如机器人或安装在现实世界的摄像头,这样才能观察变化并从互动中学习。

为了让人工智能更好观察和感知,肖特特等人在 Segment Anything(SAM) 中提出了“可提示的分割”。该系统允许用交互性的点和框等多种方式进行提示。

SAM还可以实现“任意分割”,模型不需要先验的类别信息,自动分割出图像中的所有物体。只要在图像上随机或均匀地放置点,就可以从单一图像中生成许多不同的物体。SAM模型能够自然地接受多模态输入,除了点和框,还能处理可见的文本。SAM本质上是一个通用的分割模型,设计非常简单:将图像输入传递给一个强大的图像编码器,编码器生成特征图或图像嵌入,基于嵌入和提示进行分割。此外,为了解决缺少足够的多模态数据来训练模型,团队创建了一个数据引擎,以循环的方式训练模型。

肖特特为了支持机器人在现实世界中“行动”,提出了一个用于所有任务的单一预训练视觉编码器。理由收集的各种数据来源,如图像分类、人和物体的互动、互联网视频等,预训练了一个掩模自动编码器,以生成视觉嵌入。肖特特认为,如果能重建烹饪、绘画等活动的数据,就能生成适用于现实世界任务的视觉表征。

在机器人学习中,通常会使用从头开始训练的监督图像模型作为标准流程。但是,当尝试将较小的模型(如ViT-S)扩展到更大的模型(如ViT-B)时,由于数据量不足,模型的表现下降了。这说明仅靠小规模数据无法支持模型的扩展,模型大小和训练数据需要同步扩展。

肖特特和加州大学伯克利分校的相关团队预训练了视觉模型,将感知数据和动作轨迹结合起来,输入给 transformer处理。此方法带来了两个重要的发现:

1.跨环境迁移性:传统观点认为,在一个实验室中开发的算法很难在另一个实验室中工作,原因可能是环境、设备等因素的不同。然而,预训练的模型显示出良好的通用性,在不同环境中都有效。

2.跨机器人迁移性:研究团队收集了原机器人上的数据,并使用这些数据对模型进行预训练,然后在另一台机器人上部署,效果非常好,甚至从头训练模型效果更好。

加州大学伯克利发现通过结合多种数据来源(如神经网络控制器、传统控制器、运动捕捉数据和计算机视觉重建的数据),训练的模型在步态模式和遵循命令方面比仅依赖强化学习的控制器表现更好。

圆桌讨论:Multimodal Perception and Generation

3d84009643eeeb132443d54b45b73512.jpeg

浙江大学求是讲席教授沈春华、OpenAl研究员余家辉均线上参与圆桌论坛

Q1:视觉是AGI的核心部分吗? 

谢赛宁:AGI必须具备视觉能力,因为很多人类信息难以仅通过语言传达。

代季峰:人的记忆分为显性记忆和过程记忆,前者可以用语言描述,后者则包括学习技能,如游泳、骑自行车、投篮等,这些无法通过语言准确表述。因此,视觉在学习和记忆中非常重要。

肖特特:生物视觉不仅仅是为了竞争,而是为了从真实世界中学习和交互。因此,视觉在智能形成过程中是不可或缺的。

余家辉:在某些情况下,可能不需要视觉感知,即如果世界上都是硅基智能而没有人类,那么就不需要感知或视觉。但是,那样的AGI与我们今天定义的AGI不同。我们今天讲的AGI是要服务人类的,因此需要感知和多模态。

Q2:多模态生成和感知应该统一吗?

余家辉:大家都希望尽量简化问题,但在工程上未必如此。关键在于我们的初衷,我们希望合并,但是否可行、没有足够的证据支持,还未达成共识。当前还不能只走一个方向,抛弃其他路径。

生成和感知的视觉问题,可能需要从更广的视角来看,比如将视觉、文字和其他模式结合起来。这样生成就能带来感知,纯视觉也能实现部分感知。今天我们讨论的是如何将生成和理解统一起来,也许需要拓宽视野到其他领域。

肖特特:希望结合两种方式,但目前在工程上还没找到解决办法。可能是学习目标不对或现有方法有局限性,这需要进一步研究解决。

谢赛宁:研究最终一定会统一,而且这是必要的。生成模型方面已经研究了很长时间,并且这些研究是可以互相转化的。尽管现在看起来生成模型的应用还比较离散和局限,但如果我们要建模感知,就必须理解图像或视频的内容。

沈春华:从机器学习的角度来说,过去视觉任务几乎都是用判别模型来做。从八九十年代到近三五年,生成模型做不好主要是数据问题。在过去小数据时代,生成模型作用很小,大家并不是没有意识到生成模型的重要性,而是受到当时技术的限制,无法发挥生成模型的优势,所以不得不用多模态的方法。从GPT到最近两三年,生成模型显然能更好地利用大数据,比单一模型能学到更多信息。如果能做好生成模型,理论上不需要用过去那种基于传统模型的方法来解决问题。

Q3:在研究中,除了生成和感知,我们应该如何处理不同的模态?

余家辉:多模态本质上是在某个时间点同步发生的不同信号。为了决定下一步做什么,你必须融合当前所有的信号。因此,我更确信多个模态应该统一起来,这样可以实现更多功能

肖特特:多模态学习应该包含视频、音频、手势、触觉、听觉和情感等所有信号,因为我们学习的过程本来就是所有模态一起进行的。学习和沟通是一个互相交互的过程,信息的表达和理解因语气和文化不同而变化。因此,不能先学单一模态再转向多模态,而是应该从一开始就综合考虑所有模态进行学习,这样才能获得全面的理解。

沈春华:从研究的角度来看,只要有数据,就可以将所有模态的数据整合在一起,现在几乎所有模态的数据都可以转换成序列,这样就很自然地适配了Transformer框架,而以前是做不到这一点的。在LSTM和Transformer出现之前,处理不同模态的数据需要非常复杂的特征提取和预处理。

现在的算法可以方便地处理各种模态的数据,几乎不需要改变算法。这对于研究来说非常方便。至于应用方面,这取决于你想构建什么样的系统。比如在机器人领域,是否需要整合所有可用的数据,这可能涉及到数据不平衡等工程问题。

代季峰:要构建一个性能强大的多模态大模型,尤其是能够处理全互联网级别的数据,目前还面临许多挑战。

首先,随着模态的增加,训练的复杂度呈几何级数增长,尤其是在训练原生多模态模型时,需要同时处理多个模态的数据,这对数据采集和算法提出了很高的要求。目前的算法对数据的利用效率并不高,因此成本和挑战很大。

我个人认为,尽管从头训练原生多模态模型是一个美好的目标,但现在还存在许多现实问题需要解决。这也促使我们反思当前AI训练算法中的一些基本问题,如灾难性遗忘等。

肖特特:所有模态应该整合在一起,但不应由某个模态,比如语言,来主导其他模态。语言常被认为是人类特有的,它很容易让人觉得与智能有关,因此在评估系统智能时,可能会偏向语言,这会带来偏见。然而,在人机交互系统中,语言是必要的,因为没有语言就无法进行沟通。

在理想情况下,智能体之间的沟通不一定需要语言。如果假设地球上有另一种智能体,它们可以通过简单的方式甚至无线电信号进行沟通,把内部状态直接传递给对方,而无需语言。语言是人类特有的,因为我们需要一种快速、紧凑的方式来交流,而这不一定是智能所必需的。

Q4:在多模态领域,无论是视觉、语言还是其他模态,什么时候才能实现类似ChatGPT的突破?还是还需要更长时间才能实现类似ChatGPT的多模态革命?

代季峰:ChatGPT在文本模态的突破有两个关键特点:第一,它在重要任务上的性能非常好;第二,它能以低边际成本泛化到各种开放任务。同理,多模态的突破也是如此。要实现类似的突破,多模态系统需要在重要任务上表现优异,并且能够以低成本泛化到各种开放任务上。这样,它才能切实改变现实中的生产方式。

余家辉:我有不同意见。看起来好像语言领域发展很快,而视觉等模态相对落后。我不认为是这样。例如,当年CNN出现时,像MNIST数字识别也是一个ChatGPT时刻,因为它解决了邮编识别等实际问题,服务了数千万用户。ResNet的出现也是视觉领域的一个重大突破。我认为,ChatGPT时刻可能更多是每个领域的里程碑。是否持续推进这些里程碑才是关键。

Q5:对于当前的视觉和语言任务,有两条主要的技术路线:一种是以GPT为代表的自回归模型,通过预测下一个token进行大规模预训练;另一种是扩散模型,如最近的Sora。这两条路线的优势分别是什么?哪条路径更有潜力?

余家辉:我认为这两种方法本质上都是把复杂问题拆成多步,每一步用大量计算来解决。自回归模型(auto-aggressive model)和扩散模型(diffusion model)虽然在方法上有些不同,但本质上是相似的。我们应该对这两种方法保持开放态度,不应局限于一条路线。

肖特特:之前比较CNN和ViT时,发现最终重要的是计算力和数据。模型架构更像是为下游任务提供了工具,而ViT和Transformers因为能处理各种数据且易扩展,所以被更多人选择。所以在相同的数据和计算力下,模型效果差不多,但仍没有完全定论。

Q6:讨论视觉和视频数据的编码问题时,遇到了“编码不可能三角”,即编码难以同时做到紧凑、无损和离散,只能满足其中两个。这是未来实现统一多模态系统的核心挑战。请问大家对此有什么看法?

余家辉:“编码不可能三角”确实存在,目前还没有解决这个问题的方法。

我们需要根据具体任务来决定是否需要无损、紧凑或离散的编码。通过针对每个点逐步突破,可能可以打破不可能三角。

肖特特:从信息角度看,如果不知道下游任务是什么,压缩几乎不可能,因为你可能压掉的部分正是任务需要的。最终需要找到一个平衡,根据具体任务决定指标。

Q7:关于视觉和视频中的scaling law。在语言领域经常讨论scaling law,那么在图像、视频或多模态中,我们是否已经看到了明显的scaling law?

谢赛宁:视觉和视频领域还没有看到像语言领域的GPT时刻那样的突破。一个重要问题是,缺乏成熟、可靠的基准或评估协议。要观察扩展法则,我们需要依赖这样的scaling law。

余家辉:对于生成任务,scaling law相对容易观察。理解任务因为与文字连接在一起,导致很难区分是文字的扩展还是视觉的扩展。有一种方法是通过生成来进行理解,可能会出现一些有趣的scaling law,并与下游任务相关。对于视觉模型,盲目扩展规模不是好方法,应该避免这种趋势。

Q8:数据是关键,尤其在多模态任务中。现有的数据量和质量是否足够满足未来的需求?未来的数据形式可能是什么样的?这些数据可能来自哪里?

肖特特:应该更多关注现实世界的数据,因为互联网数据总有用完的一天,而且与现实世界数据存在领域差异。我们需要在现实环境中采集和利用数据

谢赛宁:多模态模型未来的重要应用场景是与现实世界主动交互,机器人能够主动观察、交互和听取环境信息,这将创造最大的生产力。此外,学习算法需要更高效,尤其是在现实世界中获取数据昂贵且稀缺,而我们可以看到小猫小狗不需要大量语言监督也能很好地学习。数据收集可能依赖于下一代硬件,现实世界的分布非常重要。我们可能需要用互联网视频和三维表示学习技术来桥接现实与合成环境之间的差距

沈春华:除了NLP外,其他模态如3D点云、图像和视频目前还没有找到非常有效的自监督学习方法。多模态任务主要依赖配对好的文本和图像进行监督学习。如果在自监督学习方面没有突破,我们甚至不知道应该收集什么样的数据,标注成本也会很高。

在实际应用中,通过利用大模型作为中心,调用不同的视觉工具,如目标检测、图像分割、姿态估计和图像生成等,可以有效地整合和优化资源。

余家辉:数据量不是问题,关键在于如何学习以及用什么算法。随着时间推移,数据量会增加,但能否有效利用这些数据进行感兴趣的任务是需要研究的地方。

另外,数据可能来自于图像生成等新方法,这些方法结合新的学习方式可能会带来有趣的突破。

——The  End——

e3af9dc943a0311561ca5fa41f497ba7.gif

分享

收藏

点赞

在看

18393d2263a2fc289625a1a16c160173.gif

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值