具身智能
🔗 原文链接: https://mp.weixin.qq.com/s/6YmtVB-H…
⏰ 时间:2024年10月28日 16:00 (UTC+8)
作者: 郑程睿 算法工程师
最近,具身智能的概念很火。
不论是这几天稚晖君开源人形机器人全套图纸+代码,引发圈内热议。

还是各类具身智能产品,如李飞飞的 Voxposer、谷歌的 RT1 和 RT2、谷歌的 RTX、字节跳动的 Robot Flamingo、斯坦福的 ACT 和卡耐基梅隆的 3D_diffuser_act,均在不同任务和场景中展示了强大的能力,并有潜力带来革命性的变革。
那什么是具身智能呢?它又有什么用?
一文带你了解。
本文部分参考中国信息通信研究院和北京人形机器人创新有限公司的《具身智能发展报告》
一、具身智能基本概念
具身智能,即 “具身+智能”,是将机器学习算法适配至物理实体,从而与物理世界交互的人工智能范式。以 ChatGPT 为代表的“软件智能体”(或称“离身智能体”)使用大模型通过网页端、手机 APP 与用户进行交互,能够接受语音、文字、图片、视频的多种模态的用户指令,从而实现感知环境、规划、记忆以及工具调用,执行复杂的任务。在这些基础之上,具身智能体则将大模型嵌入到物理实体上,通过机器配备的传感器与人类交流,强调智能体与物理环境之间的交互。
通俗一点讲,就是要给人工智能这个聪明的“头脑”装上一副“身体”。这个“身体”可以是一部手机,可以是一台自动驾驶汽车。
而人形机器人则是集各类核心尖端技术于一体的载体,是具身智能的代表产品。
1. 具身智能的三要素:本体、智能、环境
具身智能的三要素:
- “本体”,即硬件载体;
- “智能”,即大模型、语音、图像、控制、导航等算法;
- “环境”,即本体所交互的物理世界。本体、智能、环境的高度耦合才是高级智能的基础。
不同环境下的会有不同形态的硬件本体以适应环境。比如室内平地更适用轮式机器人,崎岖不平的地面更适用四足机器人(机器狗)。在具身智能体与环境的交互中,智能算法可以通过本体的传感器以感知环境,做出决策以操控本体执行动作任务,从而影响环境。在智能算法与环境的交互中还可以通过“交互学习”和拟人化思维去学习和适应环境,从而实现智能的增长。
2. 具身智能的四个模块:感知-决策-行动-反馈
一个具身智能体的行动可以分为“感知-决策-行动-反馈”四个步骤,分别由四个模块完成,并形成一个闭环。
2.1 感知模块
感知模块负责收集和处理信息,通过多种传感器感知和理解环境。在机器人上,常见的传感器有:
-
可见光相机:负责收集彩色图像。
-
红外相机:负责收集热成像、温度测量、夜视和透视。红外相机能够检测物体发出的热辐射,即使在完全黑暗的环境中也能生成图像。这种能力使得红外相机适用于夜视和热成像。红外相机可以测量物体表面的温度,广泛应用于设备过热检测、能源审计和医学成像等领域。某些红外相机能够穿透烟雾、雾气和其他遮挡物,适用于应急救援和安全监控。
- 深度相机:负责测量图像中每个点与相机之间的距离,获取场景的三维坐标信息。
-
激光雷达(LiDAR):负责测量目标物体的距离和速度。通过发射激光脉冲并接收反射回来的光来计算与物体的距离,生成高精度的三维点云数据,广泛应用于自动驾驶和机器人导航。
-
超声波传感器:负责避障。通过发射超声波脉冲并接收这些脉冲的反射来确定机器人与障碍物之间的距离,判断障碍物是否存在。