具身智能综述和应用（Embodied AI）

最新推荐文章于 2025-11-08 13:19:59 发布

原创

最新推荐文章于 2025-11-08 13:19:59 发布 · 3.1w 阅读

174 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #具象智能 #embodied #视觉定位 #机器人导航

什么是具身智能？
目前人工智能的进展，在诸多数据源和数据集（Youtube、Flickr、Facebook）、机器计算能力（CPU、GPU、TPU）的加持下，已经在CV、NLP上取得了许多任务（如目标检测、语义分割等）的重大进展。

但目前大部分深度学习模型训练时使用的数据来自于互联网（Internet AI），而并非来自现实世界的第一人称人类视角，这样训练得到的模型是旁观型的，它只能学习到数据中的固定模式并将其映射到标签层，并不能在真实世界中直接进行学习，也不能对真实世界作出直接影响。

而在自然界中，动物为了适应环境会不断地进化以更好的生存和生活。对于人类来说，从婴儿开始就扎根于真实世界，通过观察、移动、互动和与他人交谈来学习，因此人脑中的很多认知都依赖于主体物理身体特征与世界的连续型交互，而不是从混乱和随机的经验中学习，这才是人类感知世界的方式！智能体是在主体与环境的相互作用中出现的，并且是感觉活动的结果。

因此为了满足AI机器人能够像人类一样在真实世界中实践型学习，具身智能（Embodied AI）逐渐成为一个热门的讨论点，或许它就是通往通用人工智能的关键钥匙。具身的含义不是身体本身，而是与环境交互以及在环境中做事的整体需求和功能，这意味着机器人应该像人类一样通过观察、移动、说话和与世界互动来学习。

在这里插入图片描述

Internet AI和Embodied AI的区别？
旁观型标签学习方式 v.s. 实践性概念学习方法

Internet AI从互联网收集到的图像、视频或文本数据集中学习，这些数据集往往制作精良，其与真实世界脱节、难以泛化和迁移。1）数据到标签的映射。2）无法在真实世界进行体验学习。3）无法在真实世界做出影响。
Embodied AI通过与环境的互动，虽然以第一视角得到的数据不够稳定，但这种类似于人类的自我中心感知中学习，从而从视觉、语言和推理到一个人工具象（ artificial embodiment），可以帮助解决更多真实问题。

Embodied AI的挑战
一个Embodied AI中的经典任务如上图所示，智能体必须先理解问题“汽车的颜色是什么”，然后找到汽车，再回答问题是“橙色”。因此智能体必须根据其对世界的感知、潜在的物理约束以及对问题的理解，学习将其视觉输入映射到正确的动作。

主动感知。智能体收集的数据是在环境中采取的行动的结果，因此某种程度上它可以控制它想看到的像素。这与Internet AI中的静态数据集不同。
稀疏奖励。与监督学习不同，智能体会为每个动作收集即时奖励，但它们通常是稀疏的，大多数情况下，仅当它完成目标（例如“步行到汽车”）时才会提供正向奖励，但这会导致奖励稀疏。

Embodied AI的所需能力
一般需要测量、定位、导航、理解、实施、回答。主要有以下子任务：

Visual Odometry。使用视觉来传感器测量来智能体（比如无人机）的特定自由度下的姿态、速度等物理量，一般作为 GPS、惯性导航系统 (INS)、轮式里程计等的补充，它已被广泛应用于各种机器人。
Global Localization。给定环境地图和环境观察的情况下进行定位。
Visual Navigation。在三维环境中导航是在物理世界中运行的机器人的基本能力之一。
Grounded Language Learning。人类语言是这种交流最引人注目的方式，因此机器人必须要能够将语言、世界和行动联系起来。
Instruction Guided Visual Navigation。向机器人发出口头指令，然后希望它会执行和指令语义相关的任务，这也是多模态领域一个很重要的方向，视觉和语言导航 (VLN)。
Embodied Question Answering。即上图所示的例子，为了回答汽车的颜色是“橙色！”，它必须首先智能导航以探索环境，通过第一人称视觉收集信息，然后回答问题。因此它需要先主动感知、语言理解、目标驱动的导航、常识推理（如汽车通常位于房子的什么位置？），以及将语言转化为动作的基础（如将文本中的实体与相应的图像像素或动作序列相关联）。

数据集和虚拟环境
虚拟环境模拟器将承担以前由监督数据集扮演的角色。数据集一般由房屋、实验室、房间或外部世界的 3D 场景组成，然后模拟器允许具身agent与环境进行物理交互，如观察、移动并与环境交互等等，甚至可以与其他agent或人类交谈。为了使虚拟环境更贴近现实，其一般需要构建以下特征，

Environment。构建具体化的人工智能模拟器环境的方法主要有两种：基于游戏的场景构建(G)和基于世界的场景构建(W)。如下图左侧为游戏的画面场景和世界的房间场景。
Physics。模拟真实的物理属性，分为基本物理特征(B，如碰撞、刚体动力学和重力建模)和高级物理特征(A，如流体和软体物理学)。如下图右侧。

在这里插入图片描述