多面手具身代理的多模态基础世界模型
学习通才的具身智能体,能够解决不同领域的大量任务,是一个长期存在的问题。强化学习(RL)很难扩大,因为它需要为每项任务设计复杂的奖励设计。相比之下,语言可以以更自然的方式指定任务。由于存在显著的领域差距,当前的基础视觉语言模型(VLM)通常需要微调或其他适应才能起作用。然而,在这些领域中缺乏多模式数据是开发具体化应用的基础模型的障碍。在这项工作中,我们通过提出多模态基础世界模型来克服这些问题,该模型能够将基础 VLM 的表示与 RL 的生成世界模型的潜在空间连接并对齐,而不需要任何语言注释。由此产生的代理学习框架GenRL 允许人们通过视觉和/或语言提示指定任务,将它们置于具体化领域的动态中,并在想象中学习相应的行为。通过大规模多任务基准测试, GenRL 在多个运动和操作领域表现出了很强的多任务泛化性能。此外,通过引入一种无数据的 RL策略,它为基于模型的通用型具身代理的 RL 奠定了基础。
文本扩散:基于文本调制扩散模型的交互式多模式图像融合框架
现有的多模式图像融合方法不能解决源图像中存在的复合退化问题,导致融合图像受到噪声、色彩偏差、曝光不当等因素的困扰。此外,这些方法往往忽略了前景对象的特殊性,削弱了融合图像中感兴趣对象的显著程度。为了应对这些挑战,本研
究提出了一种新的基于文本调制扩散模型的交互式多模式图像融合框架 Text-Dfuse。首先,该框架将特征级信息集成到扩散过程中,允许自适应退化去除和多模式信息融合。这是首次尝试在扩散过程中深入而明确地嵌入信息融合,有效地解决了图像融合中的复合退化问题。其次,通过在扩散融合过程中嵌入文本和零点定位模型,提出了一种文本控制的融合再调制策略。这使得用户定制的文本控件能够提高融合性能并突出显示融合图像中的前景对象。在