具身智能作为人工智能发展的一个重要分支,伴随着大模型技术的爆发与硬件成本的降低,即软硬件技术走向成熟,正在成为广泛关注的热门,一时之间,具身智能机器人也成为了科技界新的风向标。
什么是具身智能?
首先看一看三个基本概念:
-
非具身智能(Disembodied AI,Internet AI):没有物理身体,只能被动接受人类采集、制作好的数据 。—— “纸上谈兵”
-
具身智能(Embodied AI):有身体并支持物理交互的智能体,如家用服务机器人、无人车等。—— “身体力行”
-
具身的(Embodied):具有身体的,可参与交互、感知的。
上海交大卢策吾教授举出了一个通俗易懂的例子来说明两者的区别:从认知的角度来看,我们人类是第一人称(而非第三人称)视角的智能,比如我们给机器很多盒子的图片,并且标注这些就是盒子,然后机器就会觉得这种pattern是盒子。然而人类是怎么认识这是盒子的?是通过实践体验(如看到立方体、打开盖子并装入东西)。非具身智能是给AI模型喂海量的数据,然后告诉AI模型这些数据是什么(人类整理并打标签)。
非具身智能没有自己的眼睛,因此只能被动地接受人类已经采集好的数据;没有自己的四肢等执行器官,无法执行任何物理任务,也不能获得相关的任务经验。即使是可以辨识万物的视觉大模型也不知道如何倒一杯水,而缺乏身体力行的过程,使得非具身智能体永远也无法理解事物在物理交互中真实的意义。
相比而言,具身智能具有支持感觉和运动的物理身体(不一定是人形),可以进行主动式感知,也可以执行物理任务,没有非具身智能的诸多局限性。更重要的是,具身智能强调“感知—行动回路”(perception-action loop)的重要性,即感受世界、对世界进行建模、进而采取行动、进行验证并调整模型的过程。这一过程正是“纸上得来终觉浅,绝知此事要躬行”,与我们人类的学习和认知过程一致
起于大语言模型
具身智能的概念,可以追溯到1950年,图灵在论文《Computing Machinery and Intelligence》的结尾展望了人工智能可能的两条发展道路:一条路是聚焦抽象计算(比如下棋)所需的智能,另一条路则是为机器配备最好的传感器、使其可以与人类交流、像婴儿一样地进行学习。
后者便是具身智能的思想萌芽。并且在之后的几十年里,人们都觉得这是一个很重要的概念,科学家不断地丰富它的内涵,文艺作品也一直在演绎人们对智能机器人的想象(比如《机器管家》《我,机器人》等)。
但为什么具身智能提出了这么久,直到最近才出现一些成果和产品?这是因为它涉及的众多学科,以及基础硬/软件、各类传感器在当时都不成熟,比如视觉系统,机器人看不清、认不出,又怎么去感知呢。而到了今天,在计算机视觉、自然语言处理、认知和推理、机器人学、博弈和伦理、机器学习等人工智能所涵盖学科的不断发展,以及软硬件技术的成熟,才有可能推动这个庞大的学科系统进一步发展。