具身智能概念-CSDN博客

本文链接：https://blog.csdn.net/sim_faris/article/details/139840141

具身智能作为人工智能发展的一个重要分支，伴随着大模型技术的爆发与硬件成本的降低，即软硬件技术走向成熟，正在成为广泛关注的热门，一时之间，具身智能机器人也成为了科技界新的风向标。

什么是具身智能？

首先看一看三个基本概念：

非具身智能（Disembodied AI，Internet AI）：没有物理身体，只能被动接受人类采集、制作好的数据。—— “纸上谈兵”
具身智能（Embodied AI）：有身体并支持物理交互的智能体，如家用服务机器人、无人车等。—— “身体力行”
具身的（Embodied）：具有身体的，可参与交互、感知的。

上海交大卢策吾教授举出了一个通俗易懂的例子来说明两者的区别：从认知的角度来看，我们人类是第一人称（而非第三人称）视角的智能，比如我们给机器很多盒子的图片，并且标注这些就是盒子，然后机器就会觉得这种pattern是盒子。然而人类是怎么认识这是盒子的？是通过实践体验(如看到立方体、打开盖子并装入东西)。非具身智能是给AI模型喂海量的数据，然后告诉AI模型这些数据是什么（人类整理并打标签）。

非具身智能没有自己的眼睛，因此只能被动地接受人类已经采集好的数据；没有自己的四肢等执行器官，无法执行任何物理任务，也不能获得相关的任务经验。即使是可以辨识万物的视觉大模型也不知道如何倒一杯水，而缺乏身体力行的过程，使得非具身智能体永远也无法理解事物在物理交互中真实的意义。

相比而言，具身智能具有支持感觉和运动的物理身体（不一定是人形），可以进行主动式感知，也可以执行物理任务，没有非具身智能的诸多局限性。更重要的是，具身智能强调“感知—行动回路”（perception-action loop）的重要性，即感受世界、对世界进行建模、进而采取行动、进行验证并调整模型的过程。这一过程正是“纸上得来终觉浅，绝知此事要躬行”，与我们人类的学习和认知过程一致

起于大语言模型

具身智能的概念，可以追溯到1950年，图灵在论文《Computing Machinery and Intelligence》的结尾展望了人工智能可能的两条发展道路：一条路是聚焦抽象计算（比如下棋）所需的智能，另一条路则是为机器配备最好的传感器、使其可以与人类交流、像婴儿一样地进行学习。

后者便是具身智能的思想萌芽。并且在之后的几十年里，人们都觉得这是一个很重要的概念，科学家不断地丰富它的内涵，文艺作品也一直在演绎人们对智能机器人的想象（比如《机器管家》《我，机器人》等）。

但为什么具身智能提出了这么久，直到最近才出现一些成果和产品？这是因为它涉及的众多学科，以及基础硬/软件、各类传感器在当时都不成熟，比如视觉系统，机器人看不清、认不出，又怎么去感知呢。而到了今天，在计算机视觉、自然语言处理、认知和推理、机器人学、博弈和伦理、机器学习等人工智能所涵盖学科的不断发展，以及软硬件技术的成熟，才有可能推动这个庞大的学科系统进一步发展。