【前沿 热点 顶会】NIPS/NeurIPS 2024中与多模态/多模式有关的论文

多面手具身代理的多模态基础世界模型

学习通才的具身智能体,能够解决不同领域的大量任务,是一个长期存在的问题。强化学习(RL)很难扩大,因为它需要为每项任务设计复杂的奖励设计。相比之下,语言可以以更自然的方式指定任务。由于存在显著的领域差距,当前的基础视觉语言模型(VLM)通常需要微调或其他适应才能起作用。然而,在这些领域中缺乏多模式数据是开发具体化应用的基础模型的障碍。在这项工作中,我们通过提出多模态基础世界模型来克服这些问题,该模型能够将基础 VLM 的表示与 RL 的生成世界模型的潜在空间连接并对齐,而不需要任何语言注释。由此产生的代理学习框架GenRL 允许人们通过视觉和/或语言提示指定任务,将它们置于具体化领域的动态中,并在想象中学习相应的行为。通过大规模多任务基准测试, GenRL 在多个运动和操作领域表现出了很强的多任务泛化性能。此外,通过引入一种无数据的 RL策略,它为基于模型的通用型具身代理的 RL 奠定了基础。

文本扩散:基于文本调制扩散模型的交互式多模式图像融合框架

现有的多模式图像融合方法不能解决源图像中存在的复合退化问题,导致融合图像受到噪声、色彩偏差、曝光不当等因素的困扰。此外,这些方法往往忽略了前景对象的特殊性,削弱了融合图像中感兴趣对象的显著程度。为了应对这些挑战,本研
究提出了一种新的基于文本调制扩散模型的交互式多模式图像融合框架 Text-Dfuse。首先,该框架将特征级信息集成到扩散过程中,允许自适应退化去除和多模式信息融合。这是首次尝试在扩散过程中深入而明确地嵌入信息融合,有效地解决了图像融合中的复合退化问题。其次,通过在扩散融合过程中嵌入文本和零点定位模型,提出了一种文本控制的融合再调制策略。这使得用户定制的文本控件能够提高融合性能并突出显示融合图像中的前景对象。在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值