【大模型专栏—进阶篇】具身智能入门

最新推荐文章于 2025-05-05 10:37:45 发布

文艺倾年

最新推荐文章于 2025-05-05 10:37:45 发布

阅读量2.1k

点赞数 36

分类专栏：人工智能文章标签：人工智能具身智能嵌入式大模型 ROS

本文链接：https://blog.csdn.net/m0_51517236/article/details/142132214

版权

人工智能专栏收录该内容

32 篇文章

订阅专栏

在这里插入图片描述
大模型专栏介绍

😊你好，我是小航，一个正在变秃、变强的文艺倾年。

🔔本文为大模型专栏子篇，大模型专栏将持续更新，主要讲解大模型从入门到实战打怪升级。如有兴趣，欢迎您的阅读。

💡适合人群：本科生、研究生、大模型爱好者，期待与你一同探索、学习、进步，一起卷起来叭！

🔗篇章一：本篇主要讲解Python基础、数据分析三件套、机器学习、深度学习、CUDA等基础知识、学习使用AutoDL炼丹
🔗篇章二：本篇主要讲解基本的科研知识、认识数据和显卡、语言模型如RNN、LSTM、Attention、Transformer、Bert、T5、GPT、BLOOM、LLama、Baichuan、ChatGLM等系列、强化学习、大模型基础知识及微调等
🔗篇章三：本篇主要讲解智能对话、大模型基础实战如Ollama、Agent、QLoar、Deepspeed、RAG、Mobile Agent等、大模型领域前沿论文总结及创新点汇总
🔗篇章四：本篇主要讲解全栈项目实战之科研知识库、具身智能入门、从0到1训练小模型、常见算法推导、多模态入门…

具身智能入门

📜参考论文：Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI，20240826

介绍

背景：具身智能的概念最初由图灵在 1950 年建立的具身图灵测试中提出，旨在确定智体是否能显示出不仅限于解决虚拟环境（数字空间）中抽象问题的智能（智体是具身智能的基础，存在于数字空间和物理世界中，并以各种实体的形式具身，包括机器人，还包括其他设备），还能应对物理世界的复杂性和不可预测性。因此，具身智能的发展被视为一条实现通用人工智能的基本途径。

概念区分：

具身智能（Embodied AI、Embodied Intelligence）是由“本体”和“智能体”耦合而成且能够在复杂环境中执行任务的智能系统。
具身（Embodiment)：指具有支持感觉和运动（sensorimotor）的物理身体。
具身的（Embodied）：具有身体的，可参与交互、感知的。
具身智能(Embodied AI)：有身体并支持物理交互的智能体，如家用服务机器人、无人车等。 —— “身体力行”
非具身智能（Disembodied AI）：没有物理身体，只能被动接受人类采集、制作好的数据。—— “纸上谈兵”或者说 “运筹帷幄”
具身智能机器人：满足具身智能的能力的机器人，即具身智能机器人：首先，要能够听懂人类语言，然后，分解任务，规划子任务，移动中识别物体，与环境交互，最终完成相应任务。
具身任务：像人类一样通过观察、移动、说话和与世界互动从而完成的一系列任务。
多模态：是指一个模型或系统能够处理多种不同类型的输入数据并融合它们生成输出。这些数据类型可能包括文本、图像、音频和视频等。
主动交互：机器人或智能体与环境的实时交互，从而提高智能体的学习、交流和应对问题的能力。

具身智能的典型架构：
在这里插入图片描述

具身机器人

具身智体积极与物理环境互动，涵盖了广泛的具身形态，包括机器人、智能家电、智能眼镜和自动驾驶车辆等。其中，机器人作为最突出的具身形态之一，备受关注。根据不同的应用场景，机器人被设计成各种形式，以充分利用其硬件特性来完成特定任务。如图所示，具身机器人一般可分为：

机器人类型	主要应用领域	技术细节	代表性机器人
固定基座型机器人	实验室自动化、教育训练、工业制造	高精度传感器和执行器、编程灵活性、微米级精度	Franka Emika Panda, Kuka iiwa, Sawyer
轮式机器人	物流、仓储、安全检查	结构简单、成本低、能效高、快速移动	Kiva 机器人, Jackal 机器人
履带式机器人	农业、建筑、灾后恢复、军事应用	强大的越野能力和机动性、稳定性和牵引力	PackBot
四足机器人	复杂地形探索、救援任务、军事应用	多关节设计、适应性强、环境感知能力强	Unitree A1, Go1, Boston Dynamics Spot, ANYmal C
人形机器人	服务行业、医疗保健、协作环境	类人外形、多自由度手设计、复杂任务执行能力	Atlas, HRP 系列, ASIMO, Pepper
仿生机器人	医疗保健、环境监测、生物研究	模拟自然生物的运动和功能、柔性材料和结构	鱼类机器人, 昆虫机器人, 软体机器人

在这里插入图片描述
人形机器人介绍（以青龙全尺寸通用人形机器人为例）：

机器人核心关节主要分为线性关节、旋转关节、关节传感器和关节驱动系统；
在这里插入图片描述

线性关节是电机和丝杠的综合体，能够让机器人进行直线运动；
旋转关节就电机和减速器的综合体，能够让机器人进行旋转运动。
电机：将电能转换为旋转的动能的一种器件，电机一般是由定子和转子组成，定子就是固定不动的部分，转子就是旋转的部分。定子和转子都缠绕上线圈之后，一上电，电流就会通过这些线圈产生磁场，定子和转子上的磁场就会形成一种反作用力，转子就会旋转起来
减速器：
丝杠：

具身仿真

具身智能仿真平台对于具身智能至关重要，因为它们提供了成本效益高的实验手段，能够通过模拟潜在危险场景来确保安全，具有在多样环境中进行测试的可扩展性，快速的原型设计能力，能够为更广泛的研究群体提供便利，提供用于精确研究的可控环境，生成用于训练和评估数据，并提供算法比较的标准化基准。

常见的仿真平台有两种：通用仿真平台（General Simulator）和基于真实场景仿真平台（Real-Scene Based Simulators）；

通用仿真平台

通用仿真平台：提供与物理世界高度相似的虚拟环境，可用于算法开发和模型训练，具有显著的成本、时间和安全优势。
在这里插入图片描述

Isaac Sim
- 介绍：NVIDIA Isaac Sim是一款参考应用程序，它使开发人员能够在基于物理的虚拟环境中设计、模拟、测试和训练基于人工智能的机器人和自主机器。Isaac Sim 建立在 NVIDIA Omniverse 的基础上，具有完全的可扩展性，使开发人员能够构建基于通用场景描述（OpenUSD）的自定义模拟器，或者将 Isaac Sim 的核心技术集成到他们现有的测试和验证流程中。
- 链接：https://developer.nvidia.com/isaac/sim。
AirSim
- 介绍：2017年，微软研究院创建了AirSim，作为一个用于人工智能研究和实验的模拟平台。AirSim 是一款基于 Unreal Engine的无人机、汽车等多种设备的模拟器。它是开源的、跨平台的，并支持与流行的飞行控制器（如 PX4 和 ArduPilot）进行软件在环（Software-in-the-Loop, SIL）模拟，以及与 PX4 进行硬件在环（Hardware-in-the-Loop, HIL）模拟，以实现物理和视觉上逼真的模拟。AirSim 被开发为一个 Unreal 插件，可以简单地插入到任何 Unreal 环境中。同样也为 Unity 插件提供了一个实验性版本。AirSim 作为一个 AI 研究平台，主要用于实验深度学习、计算机视觉和强化学习算法在自动驾驶车辆中的应用。为此，AirSim 还提供了 API，以便以平台无关的方式检索数据和控制车辆。
- 链接：https://github.com/microsoft/AirSim
V-REP
- 介绍：V-REP（Virtual Robot Experimentation Platform，现已更名为CoppeliaSim）是一款功能强大的机器人仿真软件，为开发者提供了一个集成的3D开发环境，用于快速原型验证、远程监控、快速算法开发、机器人相关教育和工厂自动化系统仿真。这款软件因其全面的功能和用户友好的界面，在机器人研究和教育领域广受好评。
- 特点：
  - 跨平台：支持Windows、MacOS和Linux操作系统，为不同用户提供了灵活的选择。其次，V-REP提供了多种编程方法和编程语言支持，包括嵌入式脚本（支持Lua）、插件、附加组件、ROS节点、远程客户端应用编程接口等，且支持C/C++、Python、Java、Matlab、Octave等多种编程语言，极大地方便了不同技术背景的开发者。
  - 物理仿真：V-REP集成了多个物理引擎，包括ODE、Bullet、Vortex和Newton，能够根据物体的物理属性计算运动、旋转和碰撞，提供逼真的仿真效果。此外，V-REP还提供了完整的运动学解算器，支持任何机构的逆运动学和正运动学计算，使得仿真结果更加准确。
  - 机器人仿真：内置了丰富的机器人模型和控制接口，支持路径规划、图像处理、动态颗粒仿真等多种高级功能。通过详细的API和脚本功能，用户可以轻松地将各种功能集成和组合，实现复杂的机器人仿真任务。
  - 视觉化工具：如数据记录与可视化（时距图、X/Y图或三维曲线）、图形编辑模式等，方便用户实时查看和分析仿真结果。
  - V-REP还支持多层取消/重做、影像记录、油漆仿真等功能，提高了用户的操作效率。
- 链接：https://www.coppeliarobotics.com/
Pybullet
- 介绍：PyBullet 是一个用于机器人学、游戏开发和图形研究的开源物理仿真库。它是基于 Bullet Physics SDK，这是一个成熟的、广泛使用的开源物理引擎。PyBullet 提供了 Python 接口，使得开发者能够利用 Bullet 强大的物理仿真能力，同时享受 Python 的易用性。
- 优势：
  - 多体动力学仿真: PyBullet 能够精确模拟多体系统的动态行为，包括刚体和软体动力学。
  - 机器人学支持: 它支持加载 URDF（统一机器人描述格式）文件，这是一种在机器人学中广泛使用的标准格式。
  - 逆向动力学和运动规划: PyBullet 提供了逆向动力学求解器和运动规划算法，这对于机器人的路径规划至关重要。
  - 渲染和可视化: 它包括一个简单的直接渲染器，也可以通过 VR 接口进行更高级的渲染。
  - 强化学习环境: PyBullet 与 OpenAI Gym 兼容，为强化学习提供了标准化的环境和接口。
  - 跨平台: 它可以在 Windows、Linux 和 macOS 上运行。
- 链接：https://github.com/bulletphysics/bullet3
PhyScene
- 介绍：PhyScene是一种新颖的方法，用于生成具有真实布局、可移动目标和丰富物理交互性的交互式3D场景，这些特性专为具身agent量身定制。基于条件扩散模型来捕获场景布局，并设计了新颖的基于物理和交互性的引导函数，这些函数包含了来自物体碰撞、房间布局以及agent交互性的约束。
- 链接：https://physcene.github.io
RoboGen
- 介绍：RoboGen，这是一种生成式机器人agent，它通过生成式模拟自动学习多样化的机器人技能。RoboGen利用了基础和生成模型领域的最新进展，并没有直接使用或调整这些模型来生成策略或低级动作，而是倡导一种生成式方案，该方案利用这些模型自动生成多样化的任务、场景和训练监督，从而在最小人为监督的情况下扩大机器人技能学习的规模。
- 提出-生成-学习：RoboGen方法使机器人agent具备了自我引导的“提出-生成-学习”循环：agent首先提出有趣的任务和技能来开发，然后通过填充相关目标和资产以适当的空间配置来生成相应的模拟环境。之后，agent将提出的高级任务分解为子任务，选择最佳学习方法（强化学习、运动规划或轨迹优化），生成所需的训练监督，然后学习策略以获得所提出的技能。这项工作试图提取大规模模型中嵌入的广泛且多功能的知识，并将其转移到机器人领域。我们的完全生成式流程可以反复查询，产生与各种任务和环境相关的无穷无尽的技能演示。
- 链接：https://robogen-ai.github.io

基于真实场景仿真平台

基于真实场景仿真平台：主要从现实世界收集数据，创建逼真的 3D 资源，并使用 UE5 和 Unity 等 3D 游戏引擎构建场景。
在这里插入图片描述

Unity
- 介绍：Unity机器学习agent工具包（ML-Agents）是一个开源项目，它使游戏和模拟能够作为训练智能agent的环境。我们提供了基于PyTorch的最先进算法的实现，使游戏开发者和爱好者能够轻松地为2D、3D以及VR/AR游戏训练智能agent。研究人员还可以使用提供的易于使用的Python API，通过强化学习、模仿学习、神经进化或任何其他方法来训练agent。这些训练好的agent可用于多种目的，包括控制NPC行为（在各种设置中，如多agent和对抗性）、游戏构建的自动化测试以及在发布前评估不同的游戏设计决策。ML-Agents工具包对游戏开发者和AI研究人员来说是互惠互利的，因为它提供了一个中心平台，可以在Unity的丰富环境中评估AI的进步，然后将这些进步提供给更广泛的研究和游戏开发者社区。
- 链接：https://github.com/Unity-Technologies/ml-agents
ThreeDWorld
- 介绍：ThreeDWorld（TDW）是一个用于交互式多模态物理模拟的平台。TDW能够在丰富的3D环境中模拟移动agent与物体之间的高保真感官数据和物理交互。
- 属性：
  - 实时接近照片级真实的图像渲染；
  - 目标和环境的库，以及用于自定义它们的例程；
  - 用于高效构建新环境类别的生成程序；
  - 高保真音频渲染；
  - 包括布料、液体和可变形物体在内的多种材料类型的真实物理交互；
  - 体现AIagent的可定制agent；
  - 对人类与VR设备交互的支持。
  - TDW的API允许多个agent在模拟中交互，并返回一系列代表世界状态的传感器和物理数据。
- 链接：https://www.threedworld.org
iGibson 1.0
- 介绍：iGibson是一个基于Bullet的快速视觉渲染和物理模拟环境。iGibson配备了十五个完全可交互的高质量场景，数百个从真实家庭和办公室重建的大型3D场景，并且与CubiCasa5K和3D-Front等数据集兼容，提供了12000多个额外的可交互场景。iGibson的一些特点包括领域随机化、与运动规划器的集成以及易于使用的工具来收集人类演示。通过这些场景和功能，iGibson允许研究人员训练和评估使用视觉信号来解决导航和操纵任务的机器人agent，如开门、拿起和放置物体或在柜子里搜索。
- 链接：https://svl.stanford.edu/igibson
SAPIEN
- 介绍：SAPIEN模拟器为机器人、刚体和铰接物体提供物理模拟。它通过纯Python接口支持强化学习和机器人技术。此外，它还提供了多种渲染模式，包括深度图、法线图、光流、活动光和光线追踪。
- 链接：https://sapien.ucsd.edu
Habitat
- 介绍：Habitat是一个用于研究具身人工智能（AI）的平台。Habitat能够在高度逼真的3D模拟环境中训练具身agent（虚拟机器人）。
- 组成：
  - Habitat-Sim：一个灵活、高性能的3D模拟器，具有可配置的agent、传感器和通用的3D数据集处理能力。Habitat-Sim运行速度快—在渲染Matterport3D场景时，它能够在单线程下达到数千帧每秒（fps）的速度，而在单个GPU上进行多进程处理时，速度可超过10,000 fps。
  - Habitat-API：一个模块化的高级库，用于具身AI算法的端到端开发——定义任务（如导航、指令跟随、问题回答）、配置、训练和评估具身agent。
- 链接：https://github.com/facebookresearch/habitat-sim

具身感知

与仅仅识别图像中的物体不同，具有具身感知能力的主体必须在物理世界中移动并与环境互动。具身感知需要视觉感知和推理，理解场景内的3D关系，并基于视觉信息预测和执行复杂任务。

主动视觉感知

主动视觉感知系统需要基本能力，如状态估计、场景感知和环境探索。如图所示，这些能力已在视觉同步定位与地图构建（vSLAM）、三维场景理解和主动探索等领域得到了广泛研究。这些研究领域有助于开发鲁棒的主动视觉感知系统，从而在复杂、动态的环境中促进更好的环境交互和导航。表IV中总结每部分提到的方法。
在这里插入图片描述

3D视觉感知

与传统仅在平面图像范围内工作的二维视觉定位（VG）不同，三维VG结合了深度、透视和物体之间的空间关系，为智能体与环境交互提供了更强大的框架。三维VG的任务是使用自然语言描述在三维环境中定位物体。

三维视觉定位方法大致可分为两类：两步法（Two-stage）和单步法（One-stage）。

在这里插入图片描述
如图是两步法和单步法的示意图。

在这里插入图片描述
（b）两步法包括可能在检测阶段忽略目标的稀疏提议和可能混淆匹配阶段的密集提议。
（c）单步方法可以在语言描述的指导下逐步选择关键点（蓝点−→红点−→绿点）。

视觉语言导航

视觉语言导航（VLN）要求机器人理解复杂多样的视觉观察，同时解释不同粒度的指令，旨在使智体能够按照语言指令在未见过的环境中导航。

在这里插入图片描述

视觉语言导航的输入通常由两部分组成：视觉信息和自然语言指令。

视觉信息可以是过去轨迹的视频，也可以是一组历史当前观测图像。
自然语言指令包括具身智体需要达到的目标或具身智体预期完成的任务。所具身化的智体必须使用上述信息从候选列表中选择一个或一系列动作，以满足自然语言指令的要求。

视觉语言导航方法可以分为两个方向：基于记忆理解和基于未来预测。

在这里插入图片描述

触觉感知

触觉传感器为智能体提供了诸如纹理、硬度和温度等详细信息。对于同一动作，从视觉和触觉传感器中学习到的知识可能是相关且互补的，这使得机器人能够充分掌握手中的高精度任务。因此，触觉感知对于物理世界中的智能体至关重要，并且无疑增强了人机交互。

触觉感知中的三个主要任务：估计、识别和操纵。

在这里插入图片描述

传感器设计：人类触觉的原理是皮肤在被触摸时会改变形状，其丰富的神经细胞会发送电信号，这也是设计触觉传感器的基础。
触觉传感器设计方法可分为三类：非视觉基、视觉基和多模态。
其中非视觉基触觉传感器主要利用电气和机械原理，主要记录基本、低维的感官输出，如力、压力、振动和温度。

具身交互

具身交互指的是智体在物理或模拟空间中与人类和环境互动的场景。典型的具身交互任务包括具身问答（EQA）和具身抓取。

具身问答

对于具身问答（Embodied Question Answering，EQA）任务，智能体需要从第一人称视角探索环境，以收集回答给定问题所需的信息。具有自主探索和决策能力的智能体不仅要考虑采取哪些行动来探索环境，还要确定何时停止探索以回答问题。

在这里插入图片描述

具身抓取

除了与人类进行问答交互外，具身交互还涉及根据人类指令执行操作，如抓取和放置物体，从而完成机器人、人类和物体之间的交互。具身抓取需要全面的语义理解、场景感知、决策制定和稳健的控制规划。

具身抓取方法将传统的机器人运动学抓取与大模型（如大型语言模型）和视觉语言基础模型相结合，使Agent能够在多感官感知下执行抓取任务，包括视觉主动感知、语言理解和推理。在这里插入图片描述

具身Agent

智能体（Agent）定义为能够感知环境并采取行动以实现特定目标的自主实体。多模态大模型的最新进展进一步扩大了智体在实际场景中的应用。当这些基于多模态大模型的智体被具身化为物理实体时，它们能够有效地将其能力从虚拟空间转移到物理世界，从而成为具身智体。

为了使具身智能体在信息丰富且复杂的现实世界中运行，已经开发出强大的多模态感知、交互和规划能力：

在这里插入图片描述

具身多模态基础模型

为了完成任务，具身智能体通常涉及以下过程，如图所示：
（1）将抽象而复杂的任务分解为具体的子任务，即高层的具身任务规划。
（2）有效利用具身感知和具身交互模型，或利用基础模型的策略函数，逐步实施这些子任务，即低层的具身行动规划。
在这里插入图片描述
注意：对于具身智能体来说，因为行动规划必须考虑与环境的有效互动，并将这些信息反馈给任务规划器以调整任务规划。所以将其能力从数字空间对齐并推广到物理世界至关重要。

具身任务规划

📜参考论文：Embodied Task Planning with Large Language Models，20230704

任务规划智能体（TAsk Planing Agent：TaPA)，有效地将真实世界物理约束引导至具体任务规划。
在这里插入图片描述

整个框架主要包含两个部分：①场景视觉感知；②任务规划生成。

具体执行流程如下：在给定的输入场景中，TaPA会首先在生成的巡航点（Navigation Point）上进行环视采集图片，并送入Open-Vocabulary检测器感知场景中物体信息，并会以物体类别列表（Object List）方式与用户（User）下达的任务一起送到LLM中，从而生成在当前场景中可以执行的操作动作序列。

具身动作规划

📜参考论文：EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought，20230924
在这里插入图片描述
为了提高一系列具身任务的性能，引入了一种视频-语言预训练范式，该范式利用认知思维链从以自我为中心的视频输入中产生具身规划。此任务制定为标准的VQA（视觉问答）任务，用“如何完成任务+原始字幕”作为问题，并使用具身规划作为答案。

Sim-to-Real适应

具身人工智能中的“模拟到现实”适应指的是将在模拟环境（网络空间）中学习到的能力或行为转移到现实世界场景（物理世界）中的过程。这涉及验证和改进在模拟中开发的算法、模型和控制策略的有效性，以确保它们在物理环境中能够稳健且可靠地运行。

具身世界模型

世界模型方法旨在构建一种端到端模型，该模型通过预测生成性或预测性方式中的下一个状态来做出决策，从而将视觉映射到动作，甚至将任何事物映射到任何事物，有助于算法在迁移时更好地泛化。

与VLA（视觉-语言-动作）模型之间的最大区别：

VLA模型首先在大规模互联网数据集上进行训练，以实现高级突发能力，然后再与真实世界的机器人数据进行协同微调。
世界模型则完全基于物理世界的数据从头开始训练，随着数据量的增加逐渐发展出高级能力。不过它们仍然是低级的物理世界模型，与人类神经反射系统的机制有些相似。

如图所示，根据世界环境的学习流程，世界模型可以分为基于生成的方法、基于预测的方法和知识驱动的方法。

在这里插入图片描述
三种方法介绍：

在这里插入图片描述

数据收集和训练

数据收集：

传统的数据收集方法涉及昂贵的设备、精确的操作，既耗时又费力，而且往往缺乏灵活性。
当前流行的方法。

迁移学习

具身智能中的虚拟到现实的迁移（Sim-to-Real adaptation）指的是将模拟环境（数字空间）中学习到的能力或行为转移到现实世界（物理世界）中的过程。该过程包括验证和改进在仿真中开发的算法、模型和控制策略的有效性，以确保它们在物理环境中表现得稳定可靠。

下图展示了五种虚拟到现实的迁移方案。

在这里插入图片描述

具身控制

具身控制通过与环境的交互来学习，并利用奖励机制优化行为以获得最优策略，从而避免了传统物理建模方法的缺点。具身控制方法可以分为两种类型：

深度强化学习（DRL）。

DRL能够处理高维数据并学习复杂的行为模式，因此适合用于决策和控制。针对双足行走，提出了混合和动态策略梯度（HDPG），允许控制策略同时根据多个标准动态优化。
DeepGait是一种用于地形感知行走的神经网络策略，它结合了基于模型的运动规划和强化学习的方法。它包括一个地形感知规划器，用于生成步态序列和基础运动，引导机器人朝目标方向前进，以及一个步态和基础运动控制器，用于在执行这些序列的同时保持平衡。规划器和控制器都使用神经网络函数逼近器进行参数化，并使用深度强化学习算法进行优化。

模仿学习。

DRL的一个缺点是需要大量来自多次试验的数据。
为了解决这个问题，引入了模仿学习，旨在通过收集高质量的演示来减少数据使用。
为了提高数据效率，提出了离线RL + 在线RL的方法来减少交互成本并确保安全性。
该方法首先利用离线RL从静态的、预先收集的大型数据集中学习策略。然后，将这些策略部署到真实环境中进行实时交互和探索，并根据反馈进行调整。来自人类演示的代表性模仿学习方法包括ALOHA和Mobile ALOHA。

知识补充：

强化学习（Reinforcement Learning ，RL）：属于机器学习的一种，不同于监督学习和无监督学习，通过智能体与环境的不断交互（即采取动作），进而获得奖励，从而不断优化自身动作策略，以期待最大化其长期收益（奖励之和）。强化学习特别适合序贯决策问题（涉及一系列有序的决策问题）。

深度强化学习：Deep Learning + Reinforcement Learning = Deep Reinforcement Learning （DRL），常见深度强化学习算法：DQN，DDPG，PPO，TRPO，A3C，SAC 等。

挑战和发展

高质量机器人数据集：
- 现实世界数据的获取困难，成本高。
- 仿真数据与现实世界存在差距。
- 需要跨机构合作来创建多样化的数据集。
- 需要更逼真的模拟器来提高模拟数据的质量。
- RT-1模型展示了在导航和抓取任务中的潜力，但现实世界数据集的获取仍是挑战。
- 需要大规模数据集和高质量的模拟数据来支持实体模型的跨场景、跨任务应用。
复杂环境认知：
- 具身智体需要在复杂环境中感知、理解和导航。
- Say-Can模型依赖预训练LLM的任务分解机制，但缺乏对复杂环境中长期任务的理解。
- 需要提高知识迁移和泛化能力，开发适应性强的嵌入式智体架构。
- 真正的通用机器人系统应能在各种未见过的场景中理解和执行自然语言指令。
长期任务执行和因果关系发现
- 长期任务执行：
  - 执行单个指令可能涉及一系列长期任务。
  - 需要机器人在长时间跨度内计划和执行低级动作。
  - 高级任务规划虽有初步成功，但缺乏对具体任务的调整。
  - 需要培养具备强大感知能力和常识知识的高效规划。
- 因果关系发现：
  - 数据驱动的具身智体根据数据相关性做决策，但缺乏对因果关系的理解。
  - 需要具身智体能够自主进行因果推理，提高适应性、决策可靠性和泛化能力。
  - 通过交互和溯因推理，提高具身智体在复杂环境中的表现。
持续性学习：
- 研究包括增量学习、快速运动适应和人类在环学习，但多为单一任务或平台设计。
- 开放式研究问题包括微调最新数据、任务推理、在线学习算法的稳定性和样本效率，以及大容量模型的整合。
统一评估基准：
- 现有的评估基准在技能评估上差异大，且受模拟器约束。
- 需要使用逼真的模拟器进行全面评估，包括高级任务规划和低级控制策略。
- 综合评估方法可以更全面地衡量嵌入式人工智能系统的能力。

📌 [ 笔者 ]   文艺倾年
📃 [ 更新 ]   2024.10.13
❌ [ 勘误 ]   /* 暂无 */
📜 [ 声明 ]   由于作者水平有限，本文有错误和不准确之处在所难免，
              本人也很想知道这些错误，恳望读者批评指正！

在这里插入图片描述

【大模型专栏—进阶篇】具身智能入门

目录

具身智能入门

介绍

具身机器人

具身仿真

通用仿真平台

基于真实场景仿真平台

具身感知

主动视觉感知

3D视觉感知

视觉语言导航

触觉感知

具身交互

具身问答

具身抓取

具身Agent

具身多模态基础模型

具身任务规划

具身动作规划

Sim-to-Real适应

具身世界模型

数据收集和训练

迁移学习

具身控制

挑战和发展