具身智能有哪些细分研究方向？近400篇论文的综述总结！

最新推荐文章于 2025-02-19 01:33:42 发布

自动驾驶之心

最新推荐文章于 2025-02-19 01:33:42 发布

阅读量5.2k

点赞数 11

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247619880&idx=3&sn=d2f2943dfe27e8e7273bf35b87560099&chksm=cf6de30d6f45c0c78e0c07a6c063135f96de9643f832c8ac26a85e2883f00184d2a4c5e6dffa&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享具身智能的最新综述，可能是有史以来最大最全的综述！！！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『具身智能』技术交流群

论文作者 | 具身智能之心

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

具身智能（Embedded AI）对于实现通用人工智能（AGI）至关重要，是连接网络空间和物理世界的各种应用的基础。最近，多模态大模型（MLM）和世界模型（WMs）的出现因其卓越的感知、交互和推理能力而引起了人们的广泛关注，使其成为具身智能体大脑的一种有前景的架构。然而，在传播时代，还没有对嵌入式AI进行全面的调查。

在本次调查中，我们全面探讨了具身智能的最新进展。我们的分析首先浏览了具身机器人和仿真引擎的代表性作品的前沿，以充分了解研究重点及其局限性。然后，我们分析了四个主要的研究目标：1）具身感知，2）具身交互，3）具身代理，4）仿真到真实的适应，涵盖了最先进的方法、基本范式和全面的数据集。此外，我们还探讨了虚拟和真实化身代理中MLM的复杂性，强调了它们在促进动态数字和物理环境中的交互方面的重要性。最后，我们总结了具身人工智能的挑战和局限性，并讨论了它们未来的潜在发展方向。我们希望这项调查能够为研究界提供基础参考，并激发持续创新。

开源汇总链接：https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List

与以往研究的不同之处：尽管已经有几篇关于具身智能的调查论文，但其中大多数已经过时，因为它们是在2023年左右开始的起步时代之前发表的。据我们所知，2023年之后只有一篇综述论文只关注视觉语言动作体现的人工智能模型。然而，MLM、WMs和具身代理并没有得到充分考虑。此外，体现机器人和仿真引擎的最新发展也被忽视了。为了解决这个快速发展的领域中综合调查论文的稀缺问题，我们提出了这项综合综述，涵盖了代表性的具身机器人、仿真引擎和四个主要研究任务：具身感知、具身交互、具身代理和仿真真实机器人控制。

总之，这项工作的主要贡献有三方面。首先，它对具身人工智能进行了系统回顾，包括具身机器人、仿真引擎和四个主要研究任务：视觉主动感知、具身交互、具身代理和仿真机器人控制。据我们所知，这是第一次从基于MLM和WMs的网络和物理空间对齐的角度对具身人工智能进行全面调查，对现有研究进行了全面的总结和分类。其次，它考察了嵌入式人工智能的最新进展，提供了跨多个仿真引擎和数据集的当前工作的全面基准测试和讨论。第三，它确定了体现人工智能AGI未来研究的几个研究挑战和潜在方向。

具身机器人

Embodied agent积极与物理环境交互，涵盖了广泛的实施例，包括机器人、智能电器、智能眼镜、自动驾驶汽车等。其中，机器人是最突出的实施例之一。根据应用，机器人被设计成各种形式，以利用其硬件特性完成特定任务，如图4所示。

Fixed-base Robots

如图4（a）所示，固定基座机器人因其紧凑性和高精度操作而广泛应用于实验室自动化、教育培训和工业制造。这些机器人具有坚固的底座和结构，可确保操作过程中的稳定性和高精度。配备高精度传感器和执行器，可实现微米级精度，使其适用于需要高精度和可重复性的任务。

Wheeled Robots and Tracked Robots

对于移动机器人来说，它们可以面对更复杂和多样化的应用场景。如图4（b）所示，轮式机器人以其高效的机动性而闻名，广泛应用于物流、仓储和安全检查。轮式机器人的优点包括结构简单、成本相对较低、能源效率高、在平面上的快速移动能力。这些机器人通常配备激光雷达和摄像头等高精度传感器，实现自主导航和环境感知，使其在自动化仓库管理和检查任务中非常有效。

相比之下，履带式机器人具有强大的越野能力和高机动性，在农业、建筑和灾难恢复方面显示出巨大的潜力，如图4（c）所示。轨道系统提供了更大的地面接触面积，分散了机器人的重量，降低了在泥泞和沙地等软地形中沉没的风险。

Quadruped Robots

四足机器人以其稳定性和适应性而闻名，非常适合复杂的地形探索、救援任务和军事应用。受四足动物的启发，这些机器人可以在不平坦的表面上保持平衡和机动性，如图4（d）所示。多关节设计使它们能够模仿生物运动，实现复杂的步态和姿势调整。高可调性使机器人能够自动适应不断变化的地形，提高机动性和稳定性。

Humanoid Robots

人形机器人以其类似人类的形态而闻名，在服务业、医疗保健和协作环境等领域越来越普遍。这些机器人可以模仿人类的动作和行为模式，提供个性化的服务和支持。如图4（e）所示，它们灵巧的手设计使它们能够执行复杂而复杂的任务，使其有别于其他类型的机器人。

Biomimetic Robots

不同的仿生机器人通过仿真自然生物的有效运动和功能，在复杂和动态的环境中执行任务。通过仿真生物具身的形态和运动机制，这些机器人在医疗保健、环境监测和生物研究等领域显示出巨大的潜力。如图4（f）所示。

具身仿真

具身仿真对于嵌入式人工智能至关重要，因为它们提供了具有成本效益的实验，通过仿真潜在的危险场景来确保安全性，在不同环境中进行测试的可扩展性，快速原型制作能力，更广泛的研究社区的可访问性，精确研究的受控环境，训练和评估的数据生成，以及算法比较的标准化基准。为了使代理能够与环境交互，有必要构建一个逼真的仿真环境。这需要考虑环境的物理特性、目标的属性及其相互作用。

本节将分两部分介绍常用的仿真平台：基于底层仿真的通用仿真引擎和基于真实场景的仿真引擎。

General Simulator

真实环境中存在的物理相互作用和动态变化是不可替代的。然而，在物理世界中部署具身模型通常会带来高昂的成本，并面临诸多挑战。具身人工智能的最终目标是将发现从虚拟环境转移到现实世界的应用程序中。研究人员可以选择最适合他们需求的仿真引擎来帮助他们的研究。通用仿真引擎提供了一个紧密模拟物理世界的虚拟环境，允许算法开发和模型训练，这提供了显著的成本、时间和安全优势。

Isaac Sim
Gazebo
PyBullet

表二列出了10种用途仿真引擎的关键特征和主要应用场景。研究人员可以根据自己的具体研究需求选择最合适的仿真引擎，从而加快嵌入式人工智能技术的开发和应用。图5显示了通用仿真引擎的可视化效果。

Real-Scene Based Simulators

在家庭活动中实现普遍的具身代理一直是具身人工智能研究领域的主要焦点。这些具身代理需要深入了解人类的日常生活，并在室内环境中执行复杂的具身任务，如导航和交互。为了满足这些复杂任务的需求，模拟环境需要尽可能接近现实世界，这对仿真引擎的复杂性和真实性提出了很高的要求。这导致了基于现实世界环境的仿真引擎的创建。这些仿真引擎主要从现实世界收集数据，创建逼真的3D资产，并使用UE5和Unity等3D游戏引擎构建场景。丰富而逼真的场景使基于现实世界环境的仿真引擎成为家庭活动中具身人工智能研究的首选。

AI2-THOR
Matterport 3D
Virtualhome
Habitat
SAPIEN
iGibson
TDW

表三总结了基于上述真实场景的所有模拟器。Sapien因其设计而脱颖而出，专门为模拟与门、橱柜和抽屉等关节目标的交互而量身定制。VirtualHome以其独特的环境图而闻名，它促进了基于环境自然语言描述的高级体现规划。虽然AI2Thor提供了丰富的交互式场景，但这些交互与VirtualHome中的交互类似，都是基于脚本的，缺乏真正的物理交互。这种设计足以满足不需要细粒度交互的具体任务。iGibson和TDW都提供了精细的压花控制和高度模拟的物理交互。iGibson擅长提供丰富而逼真的大规模场景，使其适用于复杂和长期的移动操作，其中TDW允许用户在场景扩展方面有更大的自由度，并具有独特的音频和灵活的流体模拟功能，使其在相关模拟场景中不可或缺。Matterport3D是一个基础的2D-3D视觉数据集，在嵌入式AI基准测试中得到了广泛的应用和扩展。虽然Habitat中的具身代理缺乏交互能力，但其广泛的室内场景、用户友好的界面和开放的框架使其在具身导航中受到高度重视。

具身感知

未来视觉感知的“北极星”体现为以视觉推理和社会智能为中心。具有具身感知的主体不太可能识别图像中的物体，必须在物理世界中移动并与环境交互。这需要对3D空间和动态环境有更深入的了解。体现感知需要视觉感知和推理，理解场景中的3D关系，并根据视觉信息预测和执行复杂的任务。

Active Visual Perception

主动视觉感知系统需要基本的能力，如状态估计、场景感知和环境探索。如图7所示，这些功能在vSLAM、3D场景理解和主动探索领域得到了广泛的研究。这些研究领域有助于开发强大的主动视觉感知系统，促进复杂动态环境中的环境交互和导航。我们简要介绍了这三个组成部分，并总结了表四中每个部分提到的方法。

1）视觉SLAM：SLAM是一种技术，可以确定移动机器人在未知环境中的位置，同时竞争性地构建该环境的地图。基于距离的SLAM使用测距仪（如激光扫描仪、雷达和/或声纳）创建点云表示，但成本高昂，提供的环境信息有限。视觉SLAM（vSLAM）使用车载摄像头捕捉帧并构建环境表示。它因其低硬件成本、小规模场景中的高精度以及捕获丰富环境信息的能力而广受欢迎。经典的vSLAM技术可分为传统vSLAM和语义vSLAM。

2）3D场景理解：3D场景理解旨在区分目标的语义，识别它们的位置，并从3D场景数据中推断出几何属性，这在自动驾驶、机器人导航和人机交互等领域至关重要。场景可以使用激光雷达或RGB-D传感器等3D扫描工具记录为3D点云。与图像不同，点云是稀疏、无序和不规则的，这使得场景解释极具挑战性。

3）主动探索：之前介绍的3D场景理解方法赋予机器人以被动方式感知环境的能力。在这种情况下，感知系统的信息获取和决策不适应不断变化的场景。然而，被动感知是主动探索的重要基础。鉴于机器人能够移动并与周围环境频繁互动，它们也应该能够主动探索和感知周围的环境。它们之间的关系如图所示。当前解决主动感知的方法侧重于与环境交互或通过改变观察方向来获得更多的视觉信息。

3D Visual Grounding

与在平面图像范围内运行的传统2D视觉基础（VG）不同，3D VG结合了目标之间的深度、视角和空间关系，为代理与环境交互提供了更强大的框架。3D VG的任务涉及使用自然语言描述在3D环境中定位目标。如表五所示，3D视觉接地的最新方法大致可分为两类：两阶段方法和一阶段方法。

1）两阶段3D视觉接地方法：与相应的2D任务类似，3D接地的早期研究主要利用了两阶段检测然后匹配的管道。他们最初使用预训练的检测器或片段从3D场景中的众多目标建议中提取特征，然后将其与语言查询特征融合以匹配目标目标。两阶段研究的重点主要集中在第二阶段，例如探索目标建议特征和语言查询特征之间的相关性，以选择最匹配的目标。Refrait3D和TGNN不仅学习将提出的特征与文本嵌入相匹配，还通过图神经网络对目标之间的上下文关系进行编码。为了增强自由形式描述和不规则点云的3D视觉基础，FFL-3DOG使用了用于短语相关性的语言场景图、用于丰富视觉特征的多级3D提案关系图和用于编码全局上下文的描述引导3D视觉图。

2）一阶段3D视觉接地方法：在图8（c）中，与两阶段3D VG方法相比，一阶段3D VGs方法集成了由语言查询引导的目标检测和特征提取，使定位与语言相关的目标变得更加容易。

Visual Language Navigation

视觉语言导航（VLN）是具身智能的一个关键研究问题，旨在使代理能够按照语言指令在看不见的环境中导航。VLN要求机器人理解复杂多样的视觉观察，同时解释不同粒度的指令。VLN的输入通常由两部分组成：视觉信息和自然语言指令。视觉信息可以是过去轨迹的视频，也可以是一组历史当前观测图像。自然语言指令包括体现代理需要达到的目标或体现代理预期完成的任务。所体现的代理必须使用上述信息从候选列表中选择一个或一系列动作，以满足自然语言指令的要求。

1）数据集如下：

2）方法：近年来，随着LLM的惊人性能，VLN取得了长足的进步，VLN的方向和重点受到了深刻的影响。永远，VLN方法可以分为两个方向：基于记忆理解和基于未来预测。

Non-Visual Perception

触觉传感器为试剂提供有关物体属性的详细信息，如纹理、硬度和温度。它允许机器人完全完成手头的高精度任务，这对物理世界中的代理至关重要。触觉感知无疑增强了人机交互，并具有巨大的前景。

对于触觉感知任务，智能体需要从物理世界收集触觉信息，然后执行复杂的任务。在本节中，如图10所示，我们首先介绍了现有类型的触觉传感器及其数据集，然后讨论了触觉感知中的三个主要任务：估计、识别和操纵。

1）传感器设计：人类触觉的原理是，皮肤在被触摸时会改变形状，其丰富的神经细胞会发送电信号，这也是设计触觉传感器的基础。触觉传感器设计方法可分为三类：非视觉、视觉和多模态。非视觉触觉传感器主要使用电气和机械原理，主要记录基本的低维传感器输出，如力、压力、振动和温度。

2）数据集：非视觉传感器的数据集包含电极值、3D净力矢量和接触位置。因此，数据集中的对象通常是力样本和抓取样本。它的任务主要是估计力类型、力值和掌握细节。

3）方法：触觉感知有很多应用，可分为三类：估计、精确的机器人操作和多模态识别任务。

4）困难：a）具有不同原理的传感器的缺点：传统传感器提供简单、有限和低维的数据，对多模态学习构成挑战。基于视觉的传感器和电子皮肤虽然提供了高精度，但成本过高。此外，基于视觉的传感器无法提供温度信息。b）数据采集的困难：触觉数据集罕见且异构，缺乏视觉等领域中标准化、广泛的存储库。数据收集尤其具有挑战性，尤其是在同时收集触觉和视觉信息时，尽管在开发简化的收集设备方面做出了一些努力。c）标准不一致的困难：市场上有各种标准和原理不一致的传感器。即使成像模式相似，基于视觉的触觉传感器的设计和校准也会导致明显的域差距。与视觉和听觉数据的标准化格式不同，触觉数据格式在传感器制造商之间差异很大，这使得从异构传感器进行大规模学习变得困难，并限制了公开触觉数据集的有用性。

具身交互

具身交互任务是指代理在物理或模拟空间中与人类和环境交互的场景。典型的具身交互任务是具身问答（EQA）和具身抓取。

Embodied Question Answering

对于EQA任务，代理需要从第一人称的角度探索环境，以收集回答给定问题所需的信息。具有自主探索和决策能力的代理不仅必须考虑采取哪些行动来探索环境，还必须确定何时停止探索以回答问题。现有的工作侧重于不同类型的问题，其中一些问题如图11所示。在本节中，我们首先介绍现有的数据集，然后讨论相关方法。

数据集如下：

方法分为以下几类：

Neural Network Methods
LLMs/VLMs Methods

局限性：（a）数据集：构建数据集需要大量的人力和资源。此外，大规模数据集仍然很少，评估模型性能的指标因数据集而异，使性能的测试和比较变得复杂，（b）模型：尽管LLM带来了进步，但这些模型的性能仍然远远落后于人类水平。未来的工作可能更侧重于有效地干扰代理人探索的环境信息，并指导他们根据环境记忆和问题规划行动，同时提高他们行动的可解释性。

Embodied Grasping

具身交互，除了与人类进行问答交互外，还可以包括根据人类指令执行操作，例如抓取和放置物体，从而完成机器人、人类和物体之间的交互。体现抓取需要全面的语义理解、场景感知、决策和稳健的控制规划。具身抓取方法将传统的机器人运动学抓取与大型模型（如LLM和视觉语言基础模型）相结合，使代理能够在多感官感知下执行抓取任务，包括视觉主动感知、语言理解和推理。图12（b）展示了人机交互的概览，其中代理完成了具体的抓取任务。

1）抓握器：目前抓握技术的研究重点是两指平行抓握器和五指灵巧手。对于双指平行抓取器，抓取姿势通常分为两类：4-DOF和6-DOF。

2）数据集：最近已经生成了大量的抓取数据集。这些数据集通常包含基于图像（RGB、深度）、点云或3D场景的带注释抓取数据。

3）语言引导抓取：语言引导抓取的概念是从这种整合中发展而来的，它结合了MLM，为代理提供了语义场景推理的能力。这允许代理根据隐式或显式的人类指令执行抓取操作。图12（c）显示了近年来语言引导掌握主题的出版趋势。随着LLM的进步，研究人员对这一主题表现出越来越大的兴趣。目前，抓取研究越来越关注开放世界场景，强调开放集泛化方法。通过利用MLM的泛化能力，机器人可以在开放世界环境中以更高的智能和效率执行抓取任务。

4）端到端方法：CLIPORT是一种语言条件模仿学习代理，它将视觉语言预训练模型CLIP与Transporter Net相结合，创建了一个用于语义理解和草生成的端到端双流架构。它使用从虚拟环境中收集的大量专家演示数据进行训练，使代理能够执行语义引导的抓取。基于OCID数据集，CROG提出了一种视觉语言抓取数据集，并引入了具有竞争力的端到端基线。

5）模块化方法：F3RM试图将CLIP的文本图像先验提升到3D空间，使用提取的特征进行语言定位，然后生成草。它将精确的3D几何与2D基本模型的丰富语义相结合，利用从CLIP提取的特征通过自由文本自然语言指定要操作的对象。

这些方法通过利用端到端和模块化框架推进了语言引导抓取领域，从而增强了机器人代理通过自然语言指令理解和执行复杂抓取任务的能力。具身抓握使机器人能够与物体互动，从而提高了它们在家庭服务和工业制造中的智能和实用性。未来的研究将侧重于提高智能体的通用性，使机器人能够理解更复杂的语义，掌握更广泛的看不见的物体，并完成复杂的抓取任务。

具身agent

代理被定义为能够感知其环境并采取行动实现特定目标的自主具身。MLM的最新进展进一步将代理的应用扩展到实际场景。当这些基于MLM的代理体现在物理具身中时，它们可以有效地将其能力从虚拟空间转移到物理世界，从而成为体现代理。

为了使具身代理能够在信息丰富和复杂的现实世界中运行，开发了具身代理，以显示强大的多模态感知、交互和规划能力，如图13所示。为了完成一项任务，嵌入式代理通常涉及以下过程：1）将抽象和复杂的任务分解为特定的子任务，这被称为高级嵌入式任务规划。2）通过有效地利用体现感知和体现交互模型或利用基础模型的策略功能（称为低级体现行动计划）来逐步实现这些子任务。值得注意的是，任务规划涉及行动前的思考，因此通常在网络空间中被考虑。相比之下，行动计划必须考虑到与环境的有效交互，并将此信息反馈给任务规划者以调整任务计划。因此，对于具身代理来说，将他们的能力从网络空间推广到物理世界是至关重要的。

Embodied Multimodal Foundation Model

具身代理需要视觉识别其环境，听觉理解指令，并包含其自身状态，以实现复杂的交互和操作。这需要一个集成多种传感器模态和自然语言处理能力的模型，通过合成各种数据类型来增强智能体的理解和决策。体现多模式基础模型正在出现。谷歌DeepMind八年前开始在机器人基础模型领域进行研究，不断探索更有效地扩展模型和数据的方法。他们的研究结果表明，利用基础模型和大型、多样化的数据集是最佳策略。他们基于机器人Transformer（RT）开发了一系列作品，为未来关于具身代理的研究提供了实质性的见解。

Embodied Task Planning

如前所述，对于“把苹果放在盘子里”的任务，任务规划器会将其分为“找到苹果，摘苹果”、“找到盘子”、“放下苹果”等子任务。因为如何查找（导航任务）或拾取/放下动作（抓取任务）不在任务规划的范围内。这些动作通常在模拟器中预先定义，或在现实世界中使用预先训练的策略模型执行，例如使用CLIPort来抓取任务。主要分为以下几个模块：

Planning utilizing the Emergent Capabilities of LLMs
Planning utilizing the visual information from embodied perception model
Planning utilizing the VLMs

Embodied Action Planning

很明显，行动规划必须解决现实世界的不确定性，因为任务规划提供的子任务的粒度不足以指导环境交互中的代理。通常，代理可以通过两种方式实现行动计划：1）使用预先训练的具身感知和具身干预模型作为工具，通过API逐步完成任务计划指定的子任务，2）利用VLA模型的固有能力来制定行动计划。此外，动作规划器的执行结果被反馈给任务规划器，以调整和改进任务规划。

Action utilizing APIs
Action utilizing VLA model

Sim-to-Real适应

具身人工智能中的模拟到真实适应是指将在模拟环境（网络空间）中学习到的能力或行为转移到现实世界场景（物理世界）的过程。它涉及验证和改进仿真中开发的算法、模型和控制策略的有效性，以确保它们在物理环境中稳健可靠地运行。为了实现模拟到真实的适应，体现世界模型、数据收集和训练方法以及体现控制算法是三个基本组成部分。

Embodied World Model

Sim-to-Real涉及在模拟中创建与现实世界环境非常相似的世界模型，帮助算法在传输时更好地泛化。世界模型的方法是构建一个端到端的模型，通过以生成或预测的方式预测下一个状态来做出决策，将愿景映射到行动，甚至将任何东西映射到任何东西。这种世界模型和VLA模型之间最大的区别在于，VLA模型首先在大规模互联网数据集上进行训练，以实现高级应急能力，然后与现实世界的机器人数据进行微调。相比之下，世界模型是在物理世界数据上从头开始训练的，随着数据量的增加，逐渐发展出高级功能。然而，它们仍然是低级的物理世界模型，在某种程度上类似于人类神经反射系统的机制。这使得它们更适合输入和输出都相对结构化的场景，例如自动驾驶（输入：视觉，输出：油门、刹车、方向盘）或物体分类（输入：视力、指令、数字传感器，输出：抓取目标物体并将其放置在目标位置）。它们不太适合泛化到非结构化、复杂的具体任务。

学习世界模型在物理仿真领域具有广阔的应用前景。与传统的仿真方法相比，它具有显著的优势，例如能够推理不完整信息的交互，满足实时计算要求，并随着时间的推移提高预测精度。这种世界模型的预测能力至关重要，使机器人能够发展在人类世界中操作所需的物理直觉。如图15所示，根据世界环境的学习管道，它们可分为基于生成的方法、基于预测的方法和知识驱动的方法。我们简要总结了表XI中提到的方法。

Data Collection and Training

对于模拟到真实的适应，高质量的数据很重要。传统的数据收集方法包括昂贵的设备、精确的操作，耗时且实验室密集，往往缺乏灵活性。最近，已经提出了一些高效且成本效益高的方法来收集和培训高质量的演示数据。本节将讨论在真实世界和模拟环境中收集数据的各种方法。图16显示了来自真实世界和模拟环境的演示数据。

Embodied Control

具身控制通过与环境的交互进行学习，并使用奖励机制优化行为以获得最优策略，从而避免了传统物理建模方法的缺点。具体的控制方法可分为两类：

Deep Reinforcement Learning (DRL)
Imitation Learning

挑战和未来方向

尽管具身人工智能发展迅速，但它面临着一些挑战，并提出了令人兴奋的未来方向。

高质量的机器人数据集：获得足够的现实世界机器人数据仍然是一个重大挑战。收集这些数据既费时又耗费资源。仅依靠模拟数据最糟糕的是模拟到实际的差距问题。创建多样化的现实世界机器人数据集需要各机构之间密切而广泛的合作。此外，开发更逼真、更高效的模拟器对于提高模拟数据的质量至关重要。目前的工作RT-1]使用了基于机器人图像和自然语言命令的预训练模型。RT-1在导航和抓取任务中取得了良好的效果，但获取现实世界的机器人数据集非常具有挑战性。为了构建能够在机器人技术中跨场景和跨任务应用的通用化实体模型，必须构建大规模数据集，利用高质量的模拟环境数据来辅助现实世界的数据。

高效利用人类演示数据：高效利用人类展示数据涉及利用人们展示的动作和行为来训练和改进机器人系统。这个过程包括从大规模、高质量的数据集中收集、处理和学习，在这些数据集中，人类执行机器人想要学习的任务。目前的工作R3M使用动作标签和人类演示数据来学习可泛化表示，在一些机器人植草任务中显示出很高的成功率，但复杂任务的效率仍有待提高。因此，重要的是有效地利用大量非结构化、多标签和多模式的人类演示数据，结合动作标签数据来训练能够在相对较短的时间内学习各种任务的实体模型。通过有效地使用人类演示数据，机器人系统可以实现更高水平的性能和适应性，使其能够在动态环境中执行复杂的任务。

复杂环境认知：复杂环境认知是指实体主体在物理或虚拟环境中感知、理解和导航复杂现实世界环境的能力。基于广泛的常识，Say-Can利用了预训练的LLM模型的任务分解机制，该机制在简单的任务规划中严重依赖大量的常识，但缺乏对复杂环境中长期任务的理解。对于非结构化的开放环境，目前的工作通常依赖于预训练的LLM的任务分解机制，使用广泛的常识知识进行简单的任务规划，同时缺乏对特定场景的理解。提高复杂环境中的知识转移和泛化能力至关重要。一个真正通用的机器人系统应该能够在各种看不见的场景中理解和执行自然语言指令。这需要开发适应性强、可扩展的嵌入式代理架构。

长期任务执行：执行单个指令通常涉及机器人的长期任务，例如“清洁厨房”等命令，其中涉及重新排列物体、扫地、擦桌子等活动。成功完成这些任务需要机器人能够在较长的时间跨度内计划和执行一系列低级动作。虽然目前的高级任务规划人员已经取得了初步的成功，但由于缺乏对具体任务的调整，他们在各种情况下往往被证明是不够的。应对这一挑战需要培养具备强大感知能力和大量常识知识的高效规划者。

因果关系发现：现有的数据驱动的实体代理根据数据中的内在相关性做出决策。然而，这种建模方法不允许模型真正理解知识、行为和环境之间的因果关系，从而导致有偏见的策略。这使得很难确保它们能够以可解释、稳健和可靠的方式在现实环境中运行。因此，具身代理由世界知识驱动，能够自主进行因果推理，这一点很重要。通过交互理解世界，并通过溯因推理学习其工作原理，我们可以进一步提高多模态具身代理在复杂现实环境中的适应性、决策可靠性和泛化能力。

持续学习：在机器人应用中，持续学习对于在不同环境中部署机器人学习策略至关重要，但它仍然是一个很大程度上未被探索的领域。虽然最近的一些研究考察了持续学习的子主题，如增量学习、快速运动适应和人类在环学习，但这些解决方案通常是为单一任务或平台设计的，还没有考虑基础模型。开放式研究问题和可行的方法包括：1）在对最新数据进行微调时，将不同比例的先验数据分布混合到所有灾难性遗忘中，2）从先验分布或课程中开发高效的原型，用于学习新任务时的任务推理，3）提高在线学习算法的训练稳定性和样本效率，4）确定将大容量模型无缝整合到控制框架中的原则性方法，可能通过分层学习或慢速快速控制，用于实时推理。

统一评估基准：虽然存在许多用于评估低级控制策略的基准，但它们在评估的技能方面往往存在很大差异。此外，这些基准测试中包含的对象和场景通常受到模拟器约束的限制。为了全面评估实体模型，需要使用逼真的模拟器进行包含各种技能的基准测试。关于高级任务规划者，许多基准侧重于通过问答任务评估规划能力。然而，一种更可取的方法是同时评估高级任务规划器和低级控制策略，以执行长期任务并衡量成功率，而不是仅仅依赖于对规划器的孤立评估。这种综合方法对嵌入式人工智能系统的能力进行了更全面的评估。

结论

具身人工智能使智能体能够感知和交互来自网络空间和物理世界的各种物体，这对实现AGI具有重要意义。本次调查广泛回顾了具身机器人、模拟器、四种具有代表性的具身任务：视觉主动感知、具身交互、具身代理和模拟现实机器人控制，以及未来的研究方向。对具身机器人、模拟器、数据集和方法的比较总结清晰地展示了具身人工智能的最新发展，这极大地有利于沿着这一新兴和有前景的研究方向进行未来的研究。

参考

[1] Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频