开篇
随着大模型技术的持续升温,具身智能这一前沿领域也日益受到广泛关注与热议。为此,CVHub紧跟行业步伐,特别邀请到来自企业实践一线、深谙具身智能算法的算法工程师,倾力打造“具身智能论文精读”系列栏目。本专栏将深度解读与剖析具身智能领域的最新研究成果与核心技术动态,以期为大家提供精准且深入的专业洞见。我们诚挚欢迎并期待您的订阅与关注,一同探索具身智能的无限可能。
影视作品中的机器人
讲机器人之前,就不得不讲讲电影了。在公众的映象中,机器人始终只存在于影视作品中,"智械危机"一词也始终贯穿于科幻叙事的核心脉络之中,透过《2001:太空漫游》、《黑客帝国》及《机械姬》等一系列经典之作,生动地勾勒出机器人技术的潜在影响力,以及由此折射出的人类对科技进步与自我认知的深层次思索与矛盾情感。
机器人的自主意识
“我是 HAL 9000 型计算机。1992 年 1 月 12 日,我在伊利诺伊州乌尔巴纳的 H.A.L. 工厂投入运行。我的导师是兰利先生,他教我唱一首歌。如果您愿意听,我可以为您演唱。.” — HAL 9000
斯坦利·库布里克的旷世巨作《2001:太空漫游》塑造了HAL 9000这一形象,这台负责指挥探索者一号的超级智能计算机不仅具备语音识别、面部识别、情感互动等高级功能,更展现出依据任务最优解自行判断并采取行动的颠覆性能力。当HAL因判定任务优先级而对船员构成威胁时,它唤醒了世人对自主人工智能潜在风险的关注,从而引发了观众对AI伦理责任和失控可能性的深深忧虑。
机器人的上位
而在艾利克斯·加兰执导的《机械姬》中,“艾娃”这位情感丰富、具有自我意识的机器人,成功突破了人机之间的情感壁垒,她的存在和行为举止挑战了我们对生命本质、意识界限的认知,并昭示了一旦机器人具备了情感与意志,人类社会关系、伦理道德规范将如何经受前所未有的挑战。
机器人统治下的末世寓言
沃卓斯基兄弟执导的《黑客帝国》构建了一个由人工智能完全主宰的末世景象,在这个世界中,机器已进化至可创造出模拟现实“矩阵”,并将人类变为能源供应的囚徒。影片中,机器人不仅在物理力量上凌驾于人类之上,更是在精神层面上把控和塑造了人类的命运。人类虽沉醉于“母体”编织的虚假现实中,却在现实世界的废墟中逐渐认清了自己沦落为被剥削者的残酷境遇。这部作品借由描绘机器人对人类社会的彻底颠覆,强烈警示了科技进步对人类生存状态可能产生的毁灭性转变。
曾经的机器人
尽管影视作品频繁且戏剧化地渲染“智械危机”,搞得好像明天我们就得跟机器人抢饭碗、争地盘似的,但实际上,现实中的科技树还没爬到那么高,常见的机器人都是些“扫地机器人”、“送餐机器人”、“工业机械臂”等等,这要如何唤醒人类的警惕意识??
未来的机器人
就在人们觉得机器人好像只能“扫个地、送个餐”的时候,2022年ChatGPT等大模型横空出世,大模型在智能“涌现”的巨大突破,引发了人们对智能机器能力边界的新一轮思考,重新给机器人带来巨大的想象空间。前段时间由openai和figure ai共同推出的机器人更是引发了不小的轰动。
此处插入视频号
这一进步意味着未来的机器人或许能够在更复杂的认知层面上模拟甚至超越人类智能,不仅限于体力劳动,还能涉及脑力劳动、创新思维、决策制定等多个领域。
具身智能的定义
扯了这么多,那到底啥是机器人具身智能?是不是机器人长成人样的就是具身智能?
回答是:否!具身具身,不是人形就表示具身,具身智能不是一定是人形机器人!!!只能说人形机器人是具身智能一个比较好的载体。
斯坦福大学计算机科学教授李飞飞是这么解释的:
“具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。”
](https://files.mdnice.com/user/39454/739b0ef6-6eb2-409d-bb3c-d6f1585cd636.png)
按照上海交大卢策吾的举例,上图右上角有两只猫,一直猫被绑起来,只能看这个世界;另一只猫可以主动去走。被动的猫是一种旁观的智能,而主动的猫是具身的智能。到最后,这只旁观的猫失去了行走能力。前者有点像我们现在给机器喂很多数据,属于第三人称的智能,比如我们给机器很多盒子,并且标注这就是盒子,然后机器就会觉得这种 pattern 是盒子。但其实,人类是怎么知道这是盒子的?是通过体验才知道的。
与具身智能对应的就是“非具身智能”,也可以称之为“传统智能”、“数字智能”或者“互联网智能”,它们具有明显的局限性:
它们缺乏物理存在,对环境的认识有限,难以理解上下文,并且严重依赖数据。这些局限性可能会阻碍它们在需要适应性和情境感知的真实世界场景中的有效性。
那在机器人领域怎么定义具身智能系统?
通俗来说:
非具身智能 = 机器人(不一定要人形态)+ 从互联网数据中提取经验的小模型
具身智能 = 机器人(不一定要人形态)+ 具有智能“涌现”的多模态大模型(视觉、触觉、嗅觉、听觉、大脑(决策)、小脑(控制))+ 自主学习 + 知识库
具身智能机器人系统建立在具身认知的概念之上,该概念认为智能不仅来自大脑,还来自身体与环境的互动。这些系统配备了一系列传感器,如摄像头和麦克风,以及执行器,如轮子和电动关节,来感知和与周围环境互动。使得机器人像人一样能与环境交互感知,自主规划、决策、行动、执行能力。
综上,**具身智能不是一定是人形机器人!!!**只能说人形机器人是具身智能一个比较好的载体!!!
相关的技术路径
**注:**由于笔者只从事具身机械臂运动控制规划这块的工作,后面的相关介绍也会着重在这块,至于机器人本体的导航和运动规划这块的工作,以后有机会再介绍。。。
目前具身智能在机械臂控制主要分为两个方向,以VoxPoser为代表的非端到端的"LLM/VLM-based policy"和以DeepMind RT系列为代表的端到端的"Vision-Language-Action policy"。
非端到端的 LLM/VLM-based policy
这类方法通常借助通用的大语言模型/视觉大语言模型的通用理解能力和上下文能力,执行任务拆解,以执行特定任务,它通过提供一系列示例、API、约束等等来指导模型如何完成任务。典型代表如 Code as Policies、Voxposer、SayCan等
端到端的Vision-Language-Action policy
这类方法通常采用“视觉-语言-动作(VLA)”模型,从网络和机器人数据中学习,并将这些知识转换为机器人控制的通用指令。或者再次基础上,对执行进行细粒度划分,或者结合通用视觉大模型进行Fine-tuning,典型代表就是DeepMind的RT系列工作。
数据集
目前具身数据集也是比较热门的一个方向,有利用RGBD相机、雷达等设备进行实采和标注的工作,如RT-X、EmbodiedScan。也有基于仿真的EmbodiedGPT,也有基于diffusion的GR1、3D-VLA。
后面有机会再慢慢介绍吧。
总结
在具身智能这一领域,因其研究内容丰富多样且复杂度较高,对于未来的实践应用,我个人认为应当更多地倾向于采用端到端的解决方案(当然这块还很难,毕竟现在所谓的多模态也就语音/语言/图像)。
那些依赖大型模型进行任务拆解和规划的技术路径,大概率只能用来水论文和发演示视频(不敢点名,阴阳怪气,逃…)
最后,诚邀对具身智能和多模态大模型等前沿AI技术感兴趣的同学加入CVHub官方知识星球,获取每日最新相关技术进展,共同探讨和推动人工智能领域的创新发展。在这里,您将有机会与同行交流心得,参与专业讨论,更有机会与行业专家进行深入互动,共同见证和塑造智能科技的未来。期待您的加入,让我们携手在人工智能的浪潮中乘风破浪!