简介
最近,人形机器人成为行业热点,伴随着特斯拉、智元、宇树等一众公司发布披露的产品信息,似乎像人类一样智能的机器人已经离我们越来越近了。据笔者所知,今年该领域将有消费级产品发布,但智能化程度有待考究。具身智能是人工智能从互联网智能发展到实体Agent的重要阶段,笔者认为,具身智能机器人是指机器人能够与人类进行交互,理解人类意图,结合感知传感器进行决策和行为的智能体。这里,笔者抛砖引入,提出一种实现方案。
具身智机器人三步走实现计划
第一步、根据强化学习,或者说模仿学习(强化学习的一种),让机械臂在相机的指导下能够自主的完成一些碎片化任务(比如说抓取某一样东西,放置某一样东西,操作某一样东西『比如说叠衣服,点击家电的按钮,旋转门把手等』)。前不久,斯坦福发布的开源项目Mobile Aloha声称已经能够实现。本质而言,这是一个根据相机在内的多个环境传感器作为输入,对机械臂的各关节控制向量进行序列化预测的任务,如果考虑底盘,原理上只需要增加底盘的行走,旋转的自由度预测而已。除此之外,每个预测链路的成功与否需要反馈到预测模型中。核心策略函数可以根据人工指导(包括遥控操作、仿真环境进行行为序列数据的收集)进行回归(笔者的经验可能会使用LSTM)。
第二步、建立一个有限的自定义的子任务集合{
Γ
\Gamma
Γ},该集合是第一步中可以自主完成的一系列子任务。当人类有某项需求时,语音告诉机器人,机器人将语音转为文字。获得文字之后,利用大语言模型进行微调(至少有两种方式,一种是放在prompt里,一种是再训练微调,初步的想法是将任务集合符号化,先用第一种方式),在理解人类意图的基础上,根据自定义子任务集合进行任务编排。举一个例子,机器人需要给用户准备药品,需要经历当前位置的定位,到达药品第一可能的位置(如果没有则依次到第二、第三…可能的位置进行寻找),拿出药品,回到用户的位置,递出药品等步骤。除此之外,大语言模型还可以用于与用户的问答,传统的用户手册可以由问答功能承担,以指导用户如何操作机器人,同时适当的问询也能帮助机器人更好的理解用户需求。
第三步、多模态的人机交互。不止是语音一种交互方式,还可以是手势、动作等,针对老人、康复中患者、聋哑患者,机器人可以自主的发现用户需求并提供帮助。实际上,笔者认为实现到第二步就已经具备了具身智能机器人领域中的标志性产品了。
小注
第一步和第二步可并行进行,但是第二步最终的完成需要第一步作为基础。
第一步的落地难度应该是最大的,即使能做出演示效果,但范化性是一个不小的挑战。
此文只是记录一下阶段的想法。如果点赞超过300,说明这还算是一个被认可的方案,届时我将会更新一下所提第一步的实现情况。