【AI论文】OmniManip: 通过以对象为中心的交互基元作为空间约束实现通用机器人操控-CSDN博客

本文链接：https://blog.csdn.net/m0_66899341/article/details/145125391

随着科技的进步，开发能够在非结构化环境中进行操控的通用机器人系统一直是一个巨大的挑战。尽管视觉语言模型（Vision-Language Models, VLM）在高级常识推理方面表现出色，但它们缺乏精确操控任务所需的细粒度3D空间理解能力。为了填补这一空白，研究人员提出了多种方法，如通过大量机器人数据集对VLM进行微调以创建视觉语言行动模型（Vision-Language-Action Models, VLA）。然而，这种方法面临数据收集成本高和泛化能力差的问题。Huggingface链接：Paper page，论文链接：2501.03841。

1. 引言

1.1 机器人通用操作挑战

挑战概述：开发能够在非结构化环境中进行通用操作的机器人系统一直是一个重大挑战。这主要是由于现实世界的复杂性和多变性。
现有进展：随着大型语言模型（LLM）和视觉语言模型（VLM）的快速发展，研究者们开始探索其在机器人领域的应用。这些模型通过利用大量互联网数据获取丰富的常识知识，为机器人提供了高层次的语义推理能力。
现有局限：尽管VLM在高层次任务规划方面表现出色，如语义推理，但它们缺乏执行精确操作任务所需的细粒度3D空间理解能力。

1.2 研究动机

数据收集难题：对机器人数据集进行微调以创建视觉语言行动模型（VLA）是一种潜在解决方案，但面临高数据收集成本和泛化问题。
关键洞察：本文提出一种新颖的以对象为中心的表示方法，该方法弥合了VLM高层次推理与操作所需的低层次精度之间的差距。通过利用对象的规范空间，可以以一种结构化和语义上有意义的方式描述交互基元，如点和方向。

2. 相关工作

2.1 基础模型在机器人中的应用

VLM在机器人中的应用：视觉语言模型在环境理解和高层次常识推理方面表现出色，显示出控制机器人在新颖和非结构化环境中执行通用任务的潜力。
VLA模型的局限性：一些研究将VLM微调为VLA模型以输出机器人轨迹，但这些努力受限于高昂的数据收集成本和泛化问题。
操作基元的提取：其他方法尝试使用视觉基础模型提取操作基元，然后作为视觉或语言提示供VLM进行高层次常识推理，并结合运动规划器进行低层次控制。然而，这些方法受到将3D基元压缩为VLM所需的2D图像或1D文本的模糊性以及VLM自身幻觉倾向的限制。

2.2 操作的表示方法

关键点表示：关键点因其灵活性、泛化能力和建模可变性的能力而受欢迎。然而，这些方法需要手动任务特定注释来生成动作，并且在遮挡和姿态挑战下可能不稳定。
6D姿态表示：6D姿态有效地定义了对象之间的长距离依赖关系，对遮挡具有一定的鲁棒性。然而，这些方法需要事先建模几何关系，并且由于姿态的稀疏性，无法提供细粒度的几何信息。

3. 方法

3.1 通过交互基元进行操作

任务分解：复杂机器人任务被分解为多个阶段，每个阶段由具有空间约束的对象交互基元定义。这种结构化方法允许精确定义任务要求，并促进复杂操作任务的执行。
对象为中心的规范交互基元：提出一种新颖的对象为中心的表示方法，使用规范交互基元来描述操作任务中对象的交互方式。这些基元由对象规范空间中的交互点和方向表征，提供执行任务所需的本质内在几何和功能属性。
空间约束：在每个阶段，一组空间约束规范主动和被动对象之间的空间关系。这些约束分为距离约束和角度约束，共同定义精确空间对齐和任务执行所需的几何规则。

3.2 基元和约束提取

3D对象网格生成：通过单视图3D生成网络为任务相关的主动和被动对象获取3D对象网格。
对象规范化：使用通用6D对象姿态估计模型对对象进行规范化，并描述交互期间的刚性变换。
交互点定位：交互点分为可见且有形（如茶壶手柄）或不可见或无形（如开口中心）。使用SCAFFOLD视觉提示机制增强VLM对交互点的定位能力。
交互方向采样：在规范空间中，对象的主轴通常与功能相关。使用VLM生成每个候选轴的语义描述，并使用LLM推断和评分这些描述与任务的相关性，以生成有序的任务相关方向集。

3.3 双闭环系统

闭环规划：为提高交互基元的准确性并减轻VLM中的幻觉问题，引入基于重采样、渲染和检查（RRC）的自我校正机制。该机制使用VLM的实时反馈来检测和纠正交互错误，确保精确的任务执行。
闭环执行：一旦为每个阶段定义了交互基元和相应的空间约束，任务执行就可以表述为一个优化问题。目标是最小化损失函数以确定末端执行器的目标姿态。系统利用对象为中心的交互基元和现成的6D对象姿态跟踪算法，通过实时更新主动和被动对象的姿态来动态调整末端执行器的目标姿态，实现鲁棒且准确的闭环执行。

4. 实验

4.1 实验设置

硬件配置：实验平台基于Franka Emika Panda机器人臂，其并行夹持器的手指被UMI手指替换。使用两个Intel RealSense D415深度相机进行感知。
任务和指标：设计了12项任务以评估模型在现实世界场景中的操作能力。这些任务涵盖刚性物体操作和关节物体操作，并记录了每种方法的成功率。
基线方法：与三种基线方法进行比较：VoxPoser、CoPa和ReKep。

4.2 开放词汇操作

性能比较：OmniManip在12项开放词汇操作任务中表现出强大的零样本泛化能力和优越性能，无需任务特定训练。这主要归因于VLM中嵌入的常识知识以及所提出的高效对象为中心的交互基元，它们促进了精确的3D感知和执行。
案例研究：通过定量和定性分析展示了OmniManip在闭环推理和执行方面的优势，特别是在处理复杂任务和动态环境时的鲁棒性。

4.3 OmniManip的核心属性

可靠性：OmniManip通过在对象规范空间中采样交互点，确保任务相关交互基元的可靠提取。与ReKep和CoPa相比，OmniManip在不同视角下的性能更加稳定。
效率：与在SO(3)中均匀采样相比，OmniManip的采样策略需要更少的迭代次数并实现更高的任务成功率，表明与对象功能对齐的采样过程减少了采样开销并提高了整体性能。
闭环规划：OmniManip引入的自我校正机制通过RRC实现闭环规划，显著减少了由VLM幻觉引起的规划失败，从而提供了更可靠的规划。
闭环执行：即使规划完美，开环执行仍可能导致任务失败。OmniManip通过姿态跟踪实现实时闭环执行，对对象移动引起的遮挡具有更强的鲁棒性。