具身智能综述和应用(Embodied AI)

什么是具身智能?
目前人工智能的进展,在诸多数据源和数据集(Youtube、Flickr、Facebook)、机器计算能力(CPU、GPU、TPU)的加持下,已经在CV、NLP上取得了许多任务(如目标检测、语义分割等)的重大进展。

但目前大部分深度学习模型训练时使用的数据来自于互联网(Internet AI),而并非来自现实世界的第一人称人类视角,这样训练得到的模型是旁观型的,它只能学习到数据中的固定模式并将其映射到标签层,并不能在真实世界中直接进行学习,也不能对真实世界作出直接影响。

而在自然界中,动物为了适应环境会不断地进化以更好的生存和生活。对于人类来说,从婴儿开始就扎根于真实世界,通过观察、移动、互动和与他人交谈来学习,因此人脑中的很多认知都依赖于主体物理身体特征与世界的连续型交互,而不是从混乱和随机的经验中学习,这才是人类感知世界的方式!智能体是在主体与环境的相互作用中出现的,并且是感觉活动的结果。

因此为了满足AI机器人能够像人类一样在真实世界中实践型学习,具身智能(Embodied AI)逐渐成为一个热门的讨论点,或许它就是通往通用人工智能的关键钥匙。具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能,这意味着机器人应该像人类一样通过观察、移动、说话和与世界互动来学习。

在这里插入图片描述

Internet AI和Embodied AI的区别?
旁观型标签学习方式 v.s. 实践性概念学习方法

  • Internet AI从互联网收集到的图像、视频或文本数据集中学习,这些数据集往往制作精良,其与真实世界脱节、难以泛化和迁移。1)数据到标签的映射。2)无法在真实世界进行体验学习。3)无法在真实世界做出影响。
  • Embodied AI通过与环境的互动,虽然以第一视角得到的数据不够稳定,但这种类似于人类的自我中心感知中学习,从而从视觉、语言和推理到一个人工具象( artificial embodiment),可以帮助解决更多真实问题。

Embodied AI的挑战
一个Embodied AI中的经典任务如上图所示,智能体必须先理解问题“汽车的颜色是什么”,然后找到汽车,再回答问题是“橙色”。因此智能体必须根据其对世界的感知、潜在的物理约束以及对问题的理解,学习将其视觉输入映射到正确的动作。

  • 主动感知。智能体收集的数据是在环境中采取的行动的结果,因此某种程度上它可以控制它想看到的像素。这与Internet AI中的静态数据集不同。
  • 稀疏奖励。与监督学习不同,智能体会为每个动作收集即时奖励,但它们通常是稀疏的,大多数情况下,仅当它完成目标(例如“步行到汽车”)时才会提供正向奖励,但这会导致奖励稀疏。

Embodied AI的所需能力
一般需要测量、定位、导航、理解、实施、回答。主要有以下子任务:

  • Visual Odometry。使用视觉来传感器测量来智能体(比如无人机)的特定自由度下的姿态、速度等物理量,一般作为 GPS、惯性导航系统 (INS)、轮式里程计等的补充,它已被广泛应用于各种机器人。
  • Global Localization。给定环境地图和环境观察的情况下进行定位。
  • Visual Navigation。在三维环境中导航是在物理世界中运行的机器人的基本能力之一。
  • Grounded Language Learning。人类语言是这种交流最引人注目的方式,因此机器人必须要能够将语言、世界和行动联系起来。
  • Instruction Guided Visual Navigation。向机器人发出口头指令,然后希望它会执行和指令语义相关的任务,这也是多模态领域一个很重要的方向,视觉和语言导航 (VLN)。
  • Embodied Question Answering。即上图所示的例子,为了回答汽车的颜色是“橙色!”,它必须首先智能导航以探索环境,通过第一人称视觉收集信息,然后回答问题。因此它需要先主动感知、语言理解、目标驱动的导航、常识推理(如汽车通常位于房子的什么位置?),以及将语言转化为动作的基础(如将文本中的实体与相应的图像像素或动作序列相关联)。

数据集和虚拟环境
虚拟环境模拟器将承担以前由监督数据集扮演的角色。数据集一般由房屋、实验室、房间或外部世界的 3D 场景组成,然后模拟器允许具身agent与环境进行物理交互,如观察、移动并与环境交互等等,甚至可以与其他agent或人类交谈。为了使虚拟环境更贴近现实,其一般需要构建以下特征,

  • Environment。构建具体化的人工智能模拟器环境的方法主要有两种:基于游戏的场景构建(G)和基于世界的场景构建(W)。如下图左侧为游戏的画面场景和世界的房间场景。
  • Physics。模拟真实的物理属性,分为基本物理特征(B,如碰撞、刚体动力学和重力建模)和高级物理特征(A,如流体和软体物理学)。如下图右侧。

在这里插入图片描述

  • Object Type。用于创建模拟器的对象有两个主要源:数据集驱动的环境和资产驱动的环境。
  • Object Property。具有基本交互性的对象如碰撞、状态更
### 具身智能的技术综述 具身智能Embodied Intelligence)作为实现通用人工智能(AGI)的核心路径之一,近年来因其与多模态大模型(MLMs)、世界模型(WMS)的深度融合而备受关注[^1]。具体而言,具身智能强调通过智能体与环境之间的持续交互来提升感知、决策执行能力。这种技术框架不仅涵盖了虚拟环境中模拟训练的能力,还包括了向真实物理世界的迁移。 #### 多模态大模型对具身智能的影响 随着多模态大模型的发展,具身智能获得了更强的跨模态理解生成能力。例如,在视觉语言导航任务中,基于 ML 模型的系统可以接受自然语言输入并指导机器人完成特定目标定位的任务[^4]。类似的例子还有斯坦福大学李飞飞团队的研究成果,他们证明了通过接入大型预训练模型可以直接赋予机器人理解复杂人类指令的能力,并将其转化为实际动作[^4]。 #### 虚拟到现实的过渡挑战 尽管在仿真环境下取得了显著进步,但从虚拟到真实的迁移仍然是一个重要难题。这涉及到如何减少领域差距(domain gap),即确保在一个受控环境中学习的行为策略可以在开放且动态变化的真实场景下有效运行[^2]。为此,研究人员正在探索增强学习方法以及其他先进的算法设计思路以提高泛化性能。 #### 应用前景与发展机遇 当前阶段,多个知名企业都在积极布局各自的具身智能化解决方案。比如 NVIDIA 推出了 VIMA 平台用于支持各种类型的自动化操作;Tesla 则致力于开发 Optimus 人形机器人项目,期望最终能应用于工业生产乃至日常生活服务等多个方面。这些努力共同构成了未来几年内该行业快速发展的基础条件。 ```python # 示例代码展示了一个简单的强化学习环境设置过程 import gymnasium as gym env = gym.make('CartPole-v1') observation, info = env.reset() for _ in range(1000): action = env.action_space.sample() # 用户定义政策逻辑代替此随机采样函数 observation, reward, terminated, truncated, info = env.step(action) if terminated or truncated: break env.close() ``` 以上片段仅为示意性质,并未直接关联至任何具体引用材料内容之中。
评论 3
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值