【前沿 热点 顶会】NIPS/NeurIPS 2024中与多模态/多模式有关的论文

多面手具身代理的多模态基础世界模型

学习通才的具身智能体,能够解决不同领域的大量任务,是一个长期存在的问题。强化学习(RL)很难扩大,因为它需要为每项任务设计复杂的奖励设计。相比之下,语言可以以更自然的方式指定任务。由于存在显著的领域差距,当前的基础视觉语言模型(VLM)通常需要微调或其他适应才能起作用。然而,在这些领域中缺乏多模式数据是开发具体化应用的基础模型的障碍。在这项工作中,我们通过提出多模态基础世界模型来克服这些问题,该模型能够将基础 VLM 的表示与 RL 的生成世界模型的潜在空间连接并对齐,而不需要任何语言注释。由此产生的代理学习框架GenRL 允许人们通过视觉和/或语言提示指定任务,将它们置于具体化领域的动态中,并在想象中学习相应的行为。通过大规模多任务基准测试, GenRL 在多个运动和操作领域表现出了很强的多任务泛化性能。此外,通过引入一种无数据的 RL策略,它为基于模型的通用型具身代理的 RL 奠定了基础。

文本扩散:基于文本调制扩散模型的交互式多模式图像融合框架

现有的多模式图像融合方法不能解决源图像中存在的复合退化问题,导致融合图像受到噪声、色彩偏差、曝光不当等因素的困扰。此外,这些方法往往忽略了前景对象的特殊性,削弱了融合图像中感兴趣对象的显著程度。为了应对这些挑战,本研
究提出了一种新的基于文本调制扩散模型的交互式多模式图像融合框架 Text-Dfuse。首先,该框架将特征级信息集成到扩散过程中,允许自适应退化去除和多模式信息融合。这是首次尝试在扩散过程中深入而明确地嵌入信息融合,有效地解决了图像融合中的复合退化问题。其次,通过在扩散融合过程中嵌入文本和零点定位模型,提出了一种文本控制的融合再调制策略。这使得用户定制的文本控件能够提高融合性能并突出显示融合图像中的前景对象。在不同的公共数据集上的大量实验表明,我们的 Text-Difuse 在具有复杂退化的各种场景中获得了最先进的融合性能。此外,语义分割实验验证了本文的文本控制融合重调策略在语义性能上的显著提升。

多模式大型语言模型的统一生成和区分训练

近年来,视觉语言模型(VLM)在两种主要范式下进行了训练。生成性训练使多通道大型语言模型(MLLMS)能够处理各种复杂的任务,但幻觉和弱对象辨别等问题仍然存在。以 CLIP 等模型为代表的鉴别性训练,在零样本图文分类和检索方面表现
出色,但在需要细粒度语义区分的复杂场景中举步维艰。本文通过提出一种整合了两种范式的优点的统一方法来应对这些挑战。考虑到交织的图文序列作为输入样本的一般格式,我们引入了一种结构诱导训练策略,该策略将输入样本与 MLLM 的
隐含状态之间的语义关系强加于输入样本之间。这种方法增强了 MLLM 捕获全局语义和区分细粒度语义的能力。通过利用动态时间规整框架中的动态序列比对,并集成了一个新的用于细粒度语义区分的核,我们的方法有效地平衡了生成性任务和鉴别性任务。广泛的实验证明了我们的方法的有效性,在多个生成任务中获得了最先进的结果,特别是那些需要认知和辨别能力的任务。此外,在交错和细粒度的检索任务中,我们的方法超过了判别性基准。通过使用检索-增强生成策略,我们的方法进一步提高了在一个模型内的一些生成任务的性能,为未来视觉语言建模的研究提供了一个很有前途的方向。

Lumen:释放大型多模式模型的多功能以视觉为中心的功能

大型多模态模型(LMM)是计算机视觉领域的研究热点,也显示出跨越多学科领域的巨大潜力。最近的一个趋势是进一步扩展和增强 LMM 的感知能力。目前的方法遵循使视觉任务输出适应语言模型的格式的范例,语言模型是 LMM 的主要组成部分。这种适应导致了这类 LMM 的发展,但它忽略了不同视觉任务的内在特征,阻碍了感知能力的学习。为了解决这一问题,我们提出了一种新的 LMM 体系结构Lumen,这是一个具有通用的以视觉为中心的能力增强的大型多模态模型。我们将LMM 的感知能力学习分离为任务不可知阶段和任务特定阶段。流明首先促进细粒度的视觉-语言概念对齐,这是各种视觉任务的基本能力。因此,任务不可知阶段的输出是我们在本文中讨论的所有任务的共享表示。然后,通过将共享表示灵活地路由到轻量级任务解码器来执行特定于任务的解码,训练工作量可以忽略不计。在一系列视觉中心和 VQA 基准上的综合实验结果表明,我们的 Lumen 模型不仅在一系列以视觉为中心的任务中达到或超过了现有基于 LMM 的方法的性能,而且保持了一般的视觉理解和指令跟随能力。

通过个体化胸部 X 射线生成解决临床多模式融合中的不同步性

集成多模式临床数据,如电子健康记录(EHR)和胸部 X 光图像(CXR),对于临床预测任务特别有益。然而,在时态环境中,多模式数据通常本质上是异步的。 EHR可以连续采集,但由于成本和辐射剂量较高, CXR 通常需要更长的间隔时间。当
需要临床预测时,最后可用的 CXR 图像可能已经过时,导致预测不佳。为了解决这一挑战,我们提出了 DDL-CXR,这是一种动态生成个性化 CXR 图像的最新潜在表示的方法。我们的方法利用潜在扩散模型,以先前的 CXR 图像和 EHR 时间序
列为策略性条件,用于特定患者的生成,分别提供有关解剖结构和疾病进展的信息。通过这种方式,潜在的 CXR 生成过程可以更好地捕获跨通道的交互作用,最终提高预测性能。使用模拟数据集进行的实验表明,该模型能够有效地解决多模式融合
中的异步性问题,并始终优于现有的方法。

描述-LLaMA:具有指令调优的多模式情感识别和推理

情绪感知在人机交互、教育和咨询等应用中至关重要。然而,传统的单模态方法在多模态情感数据的真实场景中并不适用,而多模态大语言模型(MLLMS)在音频集成和面部微表情识别方面存在困难。为了解决这个问题,我们引入了 MERR 数据
集,它包含 28,618 个粗粒度样本和 4,487 个细粒度注释样本,涉及不同的情感类别。此数据集使模型能够从不同的场景中学习并推广到现实世界的应用程序。此外,我们还提出了情感大羊驼模型,该模型通过特定于情感的编码器整合了音频、视觉和文本输入。通过将特征对齐到共享空间,并使用带有指令调整的改进的大羊驼模型,情感大羊驼增强了情感识别和推理能力。广泛的评估显示, Emove-Allama 的表现优于其他 MLLM,在 EMER 上获得了线索重叠(7.83)和标签重叠(6.25)的最高分数,在 MER2023 挑战赛上获得了 0.9036 的 F1 分数,在 DFEW 数据集的零样本评估中获得了最高的 UAR(45.59)和 WAR(59.37)。代码和型号可在补充资料中找到。

平衡多模式学习与分类器引导的梯度调制

近年来,多模态学习发展非常迅速。然而,在多模式培训过程中,该模式往往只依赖一种模式,在此基础上它可以更快地学习,从而导致对其他模式的使用不足。现有的平衡训练过程的方法在损失函数、优化器和模型数等方面都存在一定的局限性,只考虑调节梯度的大小,而忽略了梯度的方向。为了解决这些问题,本文提出了一种新的平衡多模式学习和分类器引导的梯度调制(CGGM)的方法,该方法同时考虑了梯度的大小和方向。我们在四个多模数据集上进行了广泛的实验: UPMC-Food 101, CMU-MOSI, IEMOCAP 和 BRATS 2021,涵盖分类、回归和分割任务。结果表明, CGGM 的性能一致优于所有基线和其他梯度调制方法,显示了其有效性和通用性。我们的代码将向公众开放。

不要只是串起来token,而是堆叠它们!使用层栈改进多模式变压器

在过去的一年里,大型多通道模型(LMM)在多通道理解和推理方面取得了巨大的进步。目前,大多数(如果不是全部)作品试图通过将从预先训练的视觉编码器(例如,CLIP)中提取的一串视觉符号输入到大型语言模型(LLM)中来连接视觉和 LLMS。
然而,这种策略由于额外的视觉令牌而给原始 LLM 带来了相当大的计算和内存开销,这对于高分辨率的图像和视频尤为重要。尽管通过诡辩的令牌压缩来缓解这一问题,但这些方法通常难以在效果和效率之间取得良好的平衡。在这项工作中,我
们提出了一种在大型多通道模型(LMM)中连接视觉和语言转换器的新策略。我们将视觉标记堆叠到多个层中,然后将每一层的子集馈送到 LLMS 中相应的变换器层,而不是将可视标记串成一个序列,如图所示。最后,我们提出了一种在 LMM 环境下连接视觉和语言的新体系结构–OUR 模型。这一简单的策略极大地释放了 LLMS 在对大量可视令牌之间的依赖关系进行建模时的能力,同时保持计算的微小变化。具体地说,使用与 LLaVA-1.5 相同的配方,我们的模型使用相同的上下文长度,但在广泛的视觉语言基准上获得了显著的收益。特别是,与 LLaVA-1.5-7B 相比,我们的模型在 TextVQA、 DocVQA 和 InfoVQA 上分别带来了 4.2、 11.0 和 4.0 的性能提升。

NIPS 2024论文合集PDF版

由于关注点的不同,这篇博客可能无法包含所有该方向的论文。NIPS 2024 论文题目与摘要这份资料收录了NIPS 2024所有论文的标题和摘要,总共有3547页,而且是中英文对照的,读起来方便多了。
如果你对人工智能领域感兴趣,或者想找找灵感,这绝对是个好资源。翻一翻最新的研究,说不定就能找到一些新的想法或思路。平时闲下来的时候看看,既增长知识又能跟上最新的技术趋势,挺实用的。有空的话不妨看看,应该会有收获的。

NIPS 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/ZpyUlp5v

CVPR 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/ZpeYmplt

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值