[论文阅读]A Survey of Embodied Learning for Object-Centric Robotic Manipulation

最新推荐文章于 2025-05-20 15:33:15 发布

好悬给我拽开线

最新推荐文章于 2025-05-20 15:33:15 发布

阅读量1.7k

点赞数 16

文章标签：论文阅读

本文链接：https://blog.csdn.net/qq_33673253/article/details/143420839

版权

Abstract

--以对象为中心的机器人操纵的Embodied learning是体现人工智能中一个快速发展且具有挑战性的领域。它对于推进下一代智能机器人至关重要，最近引起了人们的极大兴趣。与数据驱动的机器学习方法不同，具身学习侧重于通过与环境的物理交互和感知反馈进行机器人学习，使其特别适合机器人操纵。本文对这一领域的最新进展进行了全面的调查，并将现有工作分为三个主要分支：1）Embodied感知学习，旨在通过各种数据表示来预测物体姿态和启示；2） Embodied policy学习，侧重于使用强化学习和模仿学习等方法生成最佳机器人决策；3） Embodied任务导向学习，旨在根据物体抓取和操纵中不同任务的特点优化机器人的性能。此外，我们还对公共数据集、评估指标、代表性应用、当前挑战和潜在的未来研究方向进行了概述和讨论。与本次调查相关的项目已在https://github.com/rayyoh/ocrm调查。

索引术语——Embodied 学习、机器人操作、姿势估计、启示学习、policy学习、强化学习、模仿学习、物体抓取、多模态llm。

I. INTRODUCTION

体现学习作为体现人工智能的基石，与传统的机器学习形成鲜明对比。它强调通过物理互动和实践经验获得知识[5]，[6]。数据来源涵盖广泛，包括感官输入、身体动作和即时环境反馈。这种学习机制是高度动态的，通过实时交互和反馈循环不断改进行为和操作策略。体现学习在机器人技术中至关重要，因为它使机器人具有更强的环境适应性，使它们能够应对不断变化的条件，并承担更复杂和复杂的任务。

虽然已经提出了大量的rp3680s方法，但本次调查主要关注以对象为中心的机器人操纵任务。此任务的输入是从传感器收集的数据，输出是机器人执行操纵任务的操作策略和控制信号。目标是使机器人能够高效自主地执行各种以对象为中心的操纵任务，同时增强其在不同环境和任务中的通用性和灵活性。由于对象和操作任务的多样性、环境的复杂性和不确定性，以及现实世界应用中的噪声、遮挡和实时约束等挑战，这项任务极具挑战性。

虽然已经提出了大量的embodied learning方法，但本次调查主要关注以对象为中心的机器人操纵任务。此任务的输入是从传感器收集的数据，输出是机器人执行操纵任务的操作策略和控制信号。目标是使机器人能够高效自主地执行各种以对象为中心的操纵任务，同时增强其在不同环境和任务中的通用性和灵活性。由于对象和操作任务的多样性、环境的复杂性和不确定性，以及现实世界应用中的噪声、遮挡和实时约束等挑战，这项任务极具挑战性。

图1（a）展示了一个典型的机器人操作系统。它配备了一个机器人手臂，配备了摄像头等传感器和夹具等末端执行器，使其能够操纵各种物体。该系统的智能围绕三个关键方面展开，对应于图1（b）中描述的三种embodied learning方法。1）先进的感知能力，包括利用不同传感器捕获的数据来了解目标物体和外部环境；2）精确的policy生成，需要分析感知信息以做出最佳决策；3）任务导向，通过优化执行过程以获得最大效率，确保系统能够适应特定任务

近年来，围绕上述三个关键方面进行了广泛的研究，特别是随着大型语言模型（LLMs）[7]、神经辐射场（NeRFs）[8]、扩散模型[9]和3D高斯散斑[10]的蓬勃发展，产生了许多创新的解决方案。然而，值得注意的是，缺乏一项全面的调查来概括这一快速发展领域的最新研究。这促使我们撰写这项调查，系统地回顾前沿进展，总结遇到的挑战，以及未来的研究方向。

II. EMBODIED PERCEPTUAL LEARNING

为了执行以对象为中心的机器人操作，机器人必须首先学会感知目标对象及其周围环境，这涉及数据表示、对象姿态估计和启示学习。在本节中，我们将对这些作品进行全面概述

A. Data Representation

在以对象为中心的机器人操作中，机器人利用各种传感器来感知周围的环境。这些包括RGB和深度相机等视觉传感器，它们捕获彩色图像和深度图；LiDAR，通过距离测量创建高分辨率3D点云；以及触觉传感器，其检测抓握过程中的力和接触表面上的压力分布。这些传感器收集的数据有不同的形式，导致针对特定解决方案量身定制的各种表示。接下来，我们将介绍三种主要的数据表示方法：基于图像的表示、3D感知表示和基于触觉的表示。

1) Image-Based Representation

这项工作主要侧重于仅从RGB图像构建有效的表示，从而为机器人操作中的后续任务（如物体姿态估计）提供坚实的基础。根据输入图像的数量和网络架构的变化，现有的方法可以大致分为四种类型：单幅图像单分支（SISB）[40]、单幅图像多分支（SIMB）[41]、多幅图像单支（MISB）[42]和多幅图像多支（MIMB）[43]，如图2所示。

（a）如图2（a）所示，SISB方法采用单个RGB图像作为输入，具有一个流线型的网络架构，具有一条主路径。它通常采用CNN等深度学习模型从源图像中提取深度特征，然后将这些特征输入到姿态估计器中，以生成机器人操纵所需的基本对象姿态信息。SISB在端到端网络框架内采用了一种典型的深度特征表示方法。尽管它速度快、简单，但SISB在表达物体3D几何信息方面的局限性可能会导致随后更粗糙的物体姿态估计。

（b）为了克服SISB的局限性，SIMB方法在主路径旁边引入了额外的网络分支，如图2（b）所示。这些附加分支旨在捕获更丰富的辅助信息。例如，MonoGraspNet[41]结合了关键点网络和法线网络，分别生成关键点热图和法线图。它提供了一种更稳健的中间表示，提高了姿态估计的准确性。然而，这种方法在很大程度上依赖于额外分支的预测精度。由于基于单个图像进行预测的固有局限性，在生成的中间表示中不可避免地引入了误差。这些错误会放大对后续处理步骤的不利影响，并增加机器人操作任务的不确定性

（c）由于单幅图像中缺乏尺度信息，准确估计物体的三维几何信息具有很大的挑战性。因此，许多研究都集中在探索使用多幅图像来解决这一约束的方法上。在这些方法中，MISB框架受到了广泛关注。如图2（c）所示，该框架旨在使用多幅图像进行3D重建，以恢复场景的深度信息[44]，[45]，这反过来又有助于生成高效的3D表示。具体来说，深度恢复可以通过NeRFs[8]或高斯散斑[10]等先进技术来实现。

（d）与MISB不同，MIMB旨在直接从机器人在多个位置捕获的图像中生成多视图图像表示，绕过3D重建阶段。如图2（d）所示，MIMB方法结合了额外的预测器来获取额外的信息，弥补了3D信息的不足，增强了机器人的场景感知。例如，RGBManip[43]引入了一种多视图主动学习方法，并利用SAM模型[46]生成的分割图为多视图姿态估计器提供增强的表示。

2) 3D-Aware Representation:

本节探讨了3Daware表示，它通常将RGB-D图像作为输入。现有方法根据其生成的表示分为三类：基于深度的表示（DR）、基于点云的表示（PR）和基于过渡的表示（TR），如图3所示。

图3。三种3D感知表示框架的概念比较。DR：基于深度的表示；PR：基于点云的表示法；TR：基于Transition的表示法。

（a） DR方法通常采用网络同时从RGB-D图像中提取2D特征，如图3（a）所示。一些人将这些提取的特征直接用于后续任务[47]、[48]，这通常需要后验细化。例如，Lenz等人[48]引入了一种两级级联网络架构，其中第一个网络有效地过滤掉了提取特征后生成的许多不太可能的抓取，第二个网络专注于评估第一个网络的检测结果。另一项研究[49]、[50]利用双流网络从RGB和深度图像中独立提取2D特征。随后，这些特征被组合或融合，以生成下游任务的最终特征Fd。

（b） PR方法不是直接在RGB-D图像上提取特征，而是首先通过预处理创建点云，如图3（b）所示。以前处理从RGB-D图像转换的点云的方法[51]通常涉及对点云进行体素化，并利用3D卷积神经网络提取特征。然而，这种方法在内存使用方面效率低下。PointNet的引入[52]，一种专为点云设计的网络架构，彻底改变了该领域。许多方法[53]、[54]现在更喜欢利用类似PointNet的框架，这些框架可以从点云中的各个点直接提取特征，然后为不同的目标定制特定任务的模块。

（c）图3（c）展示了TR工作的框架[55]，[56]，其重点是通过将输入的RGB-D数据转换为占用场、NeRF或3D高斯等3D表示来提高模型对3D几何的理解。例如，参考文献[57]涉及将RGB-D数据转换为体素表示，使用体素编码器创建3D特征体。然后，该体积被用于构建神经辐射场，以对3D空间进行建模并预测机器人动作。参考文献[58]，[59]将RGB-D数据投影到密集点云中或体素化点云中，这是在场景中放置3D高斯分布和增强对机器人操纵任务的支持的基础。

3）基于触觉的表示

触觉传感获取关键的力和位置信息，使机器人能够敏感地感知与物体的接触和微妙的表面变化。这些信息对于提高机器人执行复杂任务的能力以及提高其操作精度和适应性至关重要。

触觉传感技术的领域是多样化的，例如Gelsight[60]、DIGIT[61]和AllSight[62]。这些传感器可以捕获各种触觉信息，如接触位置、法向力、切向力和扭矩。这些数据的表示方法也各不相同。一种常见的表示是通过在特定时间窗口内对触觉反馈进行多次采样而获得的时间序列[63]，[64]。这些序列可以使用LSTM等神经网络转换为特征向量[65]，这简化了后续模型中的处理。另一种表示形式是触觉图像[66]，[67]，它以类似于标准RGB图像的直观格式直观地呈现触觉信息，并且可以使用CNN直接进行特征提取处理。此外，触觉数据可以与视觉和音频等其他模态集成，以创建多模态表示[68]，