关于具身智能的视觉-语言-行动模型综述报告
原创 罗岑 CAAI认知系统与信息处理专委会 2024年12月06日 09:40 北京
1 摘要
深度学习在许多领域取得了显著的成功,包括计算机视觉、自然语言处理和强化学习。这些领域中代表性的人工神经网络包括卷积神经网络、Transformer和深度Q网络。在单模态神经网络的基础上,许多多模态模型被引入来解决各种任务,例如视觉问答、图像字幕和语音识别。在具身智能中,遵循指令的机器人策略的兴起推动了一种新型的多模态模型的发展,称为视觉-语言-动作模型( Vision-Language-Action, VLA),它们的多模态能力已成为机器人学习领域的基本元素。目前研究学者们已经提出了各种方法来增强多模态模型的特征,如多样性、灵活性和泛化能力。一些模型专注于通过预训练来优化特定的组件,而其他模型旨在开发能够预测低级动作的控制策略。某些VLA作为高层任务规划器,能够将长期任务分解为可执行的子任务。在过去的几年中,大量的VLA涌现反映了具身智能的快速发展,因此,通过综述报告调查是有必要的。本报告主要介绍了VLA模型的背景和应用,总结了不同VLA模型的具体实现方法和优缺点,提出了VLA模型目前的问题和未来研究方向,最后对VLA模型的当前发展现状进行了总结。
2 简介
VLA是一类旨在处理多模态输入、整合视觉、语言和动作信息的模型,这个术语由 RT-2为了解决具身智能任务提出 [1]。与聊天机器人等其他人工智能形式不同,后者通常以ChatGPT [2]为代表,具身智能需要控制物理化身并与环境交互,而机器人技术是具身智能领域最突出的一个方面。在基于语言的机器人任务中,执行的策略不仅必须能够理解语言指令,而且还要对环境进行视觉感知并生成适当行为,这就要求VLA具备多模态能力。与早期深度强化学习方法相比,基于VLA的策略在复杂环境中表现出更好的适应性、灵巧性和泛化性。这使得VLA不仅适用于工厂等受控环境,也适用于烹饪和房间清洁等日常任务。
基于预训练视觉基础模型、语言模型和视觉语言模型的成功,VLA已经证明了它们在解决这些方面的能力。最先进的视觉编码器的预训练视觉表示可以帮助VLA感知复杂的环境,[3][4][5]提供更精确的估计,如对象的类别、对象的姿势和对象的几何形状。随着语言模型能力的提高,[1][6]以语言指令为基础来实现特定的任务成为可能。基础视觉语言模型探索了许多将视觉模型和语言模型相结合的方法,包括BLIP-2 [7]、Flamingo [8]等。来自不同领域的创新使VLA能够应对具身智能的挑战。
3 背景
3.1 单模态模型
VLA整合了三种模态,通常依赖于现有的单模态模型进行处理不同模态的输入信息。计算机视觉中从CNN [9] 到Visual Transformer [10] 的转变促进了更通用的视觉模型的发展。在自然语言处理方面,RNN [11]到Transformer [12]的转变也成功造成了预训练微调范式,随后是最近成功的大型语言模型提示微调,目前,强化学习也已转向使用Transformer来建模马尔科夫决策过程作为自回归序列数据,单模态模型最近的发展在实现多模态模型的成功方面发挥了关键作用。
3.2 视觉语言模型
视觉语言任务,包括图像字幕生成 [13]、视觉问答 [14