大模型赋能人形机器人

1. 人形机器人是 AI 进入现实世界的载体

1.1 人形机器人是实现通用人工智能最有效的途径

通用人工智能需要满足 4 个必备条件,分别为智能涌现、自主代理、功能可见以及现实具象的能力。智能涌现是大模型具备强大推理能力的一个基础条件,只有具备了智能涌现这样一个基础表现的现象后,继续增加模型节点数和训练数据量去训练大模型才能够成为一条可行的路径。自主代理即当接收到环境信息或外部的指令后,能够根据环境采取不同的决策,这种自主代理的能力能够使机器更好的去适应环 境和完成复杂的任务。功能可见即理解世界和环境中实物的一种能力,目前大模型只是具备了理解抽象世界的能力。现实具象性相对目前的人工智能而言的,目前大模型是在相对抽象的代码世界里完成的,并没有和现实的传感器、执行器等紧密的结合。 

目前的大模型已经满足智能涌现和自主代理,即能够根据指令按照一系列的思维链 完成复杂的内容输出,但功能可见性和现实具象性是目前大模型所欠缺的。我们认 为智能机器人将会是实现功能可见性和现实具象性最有效的路径。

图片

1.2 人形机器人在逻辑上全面对标人类

人形机器人参考人类身体,可在逻辑上全面对标人类。分为“眼鼻喉、皮肤”、“大脑”、“小脑”、“身体”,分别完成感知输入、感知处理/交互/决策/规划、运动控制、机械执行等功能。感知输入主要由外部传感器完成,包括视觉、嗅觉、听觉、触觉传感器等;感知处理/交互/决策/规划主要由CPU/GPU/NPU/DSP、OS、AI算法、SLAM 算法等完成;运控控制主要由CPU/MCU、RTOS、运动控制算法完成;机械结构主要由线性执行器、旋转执行器、灵巧手、躯干、内部传感器完成。我们认为机械结构和外部传感器决定了人形机器人智能化的下限,而“大脑”、“小脑”决定了智能化上限。而随着AI 大模型的发展,我们认为有望全面升级人形机器人“大脑”和“小脑”。

图片

2. 大模型能全面赋能人形机器人“大脑”和“小脑”

2.1 AI 大模型的发展使人形机器人具备了 “交互&决策”能力

AI 大模型的发展使人形机器人具备了“交互&决策”能力。2022年底,ChatGPT、 Midjourney、Stable Diffusion 等相继亮相,AI 大模型展示出很大潜力,推动了人工智能在各行各业的应用,也掀起了以人形机器人为代表的“具身智能”的发展热潮。NLP 大模型如 ChatGPT、Gemini 等,具备上下文理解、多轮对话以及文学创造等能力,加速了人和机器人之间的自然语言交互进程;CV 计算机视觉大模型的发展增强了分类、目标检测、语义分割、深度估计四大视觉核心任务的完成精确度,大大提升了机器人的环境感知能力;不同于单模态大模型的单一类型数据处理,多模态大模型可以处理文本、图像、视频或音频等多种类型的数据,使得机器人具备各感官融合决策的能力,提升了机器人的推理决策功能。我们认为在AI大模型的加持下,人形机器人有望具备非常强大的交互和决策能力,能够根据环境或人的指令,对自己的行为做出决策。

图片

2.2 基于大模型的纯视觉自动驾驶感知方案可迁移至人形机器人

基于大模型的纯视觉自动驾驶感知方案可直接迁移至人形机器人。视觉是最为经济高效的方案,视觉图片的信息密度和信息量是最大的驾驶感知途径(灯光、颜色、图案、物质的类型、材质)(位置、距离、速度)。通过视觉 SLAM 算法动态构建向量空间(Vector Space),精准到每个像素点的三维空间,生成BEV鸟瞰图,让车或者机器人在立体的空间中运动。同时在算法中引入了 Transformer模型,使算法精度不断提高。我们认为大模型的发展有望使人形机器人的感知越来越智能。

图片

2.3AI大模型将提升机器人决策、规划和导航能力

AI大模型将提升机器人决策、规划和导航能力,以特斯拉为例,大模型持续优化大幅提升FSD的安全性以及规划效率。在特斯拉投资者日披露了FSD beta的碰撞数据,使用FSD beta每320万英里行驶中只有1次碰撞,而美国司机平均50英里就有一次碰撞,FSD系统的安全性是美国平均驾驶安全性的5-6倍。而特斯拉自动标注系统能够快速标注海量数据来对FSD算法模型进行训练,在规划算法中引入大模型,提升了规划路径的效率。我们认为大模型有望提升智能汽车和人形机器人的决策、规划和导航能力。

图片

图片

2.4 AI大模型有望赋能人形机器人运动控制

AI大模型使任务级编程成为可能,有望赋能人形机器人运动控制。当前机器人的通用性普遍较弱,基本上只是针对一个特定的任务或需求设计、制造机器人,如零件组装机器人、扫地机器人等。主要的技术瓶颈有两个:一是机器人的硬件形态限制了机器人的用途;但更重要的原因在于软件层面暂时无法做到任务级编程。所谓任务级编程,指的是根据人下达的指令,实时编写出完成指令对应的程序并执行,使一个机器人能够完成各种任务。我们认为大模型具备较强的自然语言处理等能力,可以有效帮助机器人首先理解任务内容,然后将任务拆解,最后编程执行,完成任务,这将使得任务级编程成为可能。

图片

图片

3. 科技巨头将率先推动大模型在人形机器人领域的应用

3.1 ChatGPT 横空出世标志着大模型“奇点”来临

2022年11月由微软投资的OpenAI率先推出了ChatGPT产品,ChatGPT是 OpenAI 开发的智能聊天平台,推出仅仅2个月,注册用户已经过亿,引发了此轮AIGC浪潮。当前 ChatGPT已经实现商业化,面向公众用户提供Plus会员服务(高级版账号升 级),可以提供更好的聊天体验。同时OpenAI API与微软面向开发者提供API调用 服务。我们认为OpenAI商业化不但可以缓解日益庞大的训练和推理所需的算力资源 的成本压力,而且是检验产品用户满意度的最好方式,同时也有利于产品不断迭代。

3.2 大语音模型能力延伸至具身智能领域

我们认为大语言模型(LLM)到达了“iPhone 时刻”,能力延伸至具身智能领域。大语言模型拥有较高的理解和认知能力,大幅提升人机交互水平,大语言模型同时拥有较高的编程能力,可替代工程师编写或优化机器人控制代码。

以OpenAI 的 ChatGPT 为例,当前机器人依赖专业工程师深度编码参与,且需多 次迭代机器人执行任务的代码,由工程师编写、迭代升级过程很慢(用户需要编写低 级代码)、成本高昂(需要对机器人技术有深入了解的高技能用户)、效率低下(需要多次迭代才能使事情正常工作)。ChatGPT解锁了新的机器人范式,并允许(可能是非技术性的)用户参与循环,向大语言模型 (LLM) 提供高级反馈,同时监控机器人的性能。通过遵循设计原则,ChatGPT 可以为机器人场景生成代码。无需任何微调, 我们就利用大模型的知识来控制不同形状的机器人来执行各种任务。在我们的工作中,展示了ChatGPT解决机器人难题的多个示例,以及在操纵、航空和导航领域的复杂机器人部署。 

图片

3.3 多模态大模型开辟机器人大小脑进化的新方法

随着大模型从自然语言领域延伸至图形图像领域,我们认为多模态大模型有望开辟机器人“大脑”、“小脑”快速进化的新方法。机器人将拥有庞大的先验知识库、 强大的通识理解能力、复杂语义多级推理能力(思维链或思维树)。

以google的RT-2模型为例,是一种新型的视觉-语言-动作 (VLA) 模型,可以从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令,同时保留Internet规模能力。在训练端,机器人动作表达为文本字符串(token),视觉-语言-动作数据协同微调。为了使RT-2轻松兼容大型预训练视觉语言模型,将机器人动作表示为另一种语言,可以将其转换为文本标记并与互联网规模的视觉语言数据集一起训练。对现有的视觉语言模型与机器人数据进行协同微调。机器人数据包括当前图像、语言命令和特定时间步的机器人动作。将机器人动作表示为文本字符串,如下所示。此类字符串的示例可以是机器人动作标记编号的序列:“1 128 91 241 5 101 127 217”。由于动作被表示为文本字符串,因此可以将它们视为另一种允许我们操作机器人的语言。这种简单的表示使得可以直接微调任何现有的视觉语言模型并将其转变为视觉语言动作模型。

图片

模型的骨干和预训练来学习机器人策略,将其泛化、语义理解和推理转移到机器人控 制中。

图片

3.4 原生机器人多模态大模型有望实现视频输入和控制输出

我们认为随着原生多模态模型的不断发展,端到端神经网络有望实现从视频输入到高精度控制输出。以google Gemini为例,是一种原生多模态模型,相比GPT的 ‘拼接’多模态大模型效果更好,因为后者在训练阶段极易遇到瓶颈。谷歌Gemini 此次绕开了文字环节,直接靠视觉和声音来理解世界。我们认为Gemini在机器人感 知方面非常适用。从模型架构上来看,Gemini的设计理念是从一开始就考虑如何处理多种形式的数据。这种理念体现了对自然智能的深刻理解,即真正的智能应能够跨越不同数据类型,而不仅仅是文本。从版本分类来看,Gemini的三种版本——Ultra、Pro和Nano——各有其独特的定位和优化目标。Ultra版本为处理高度复杂的任务而设计,它拥有最强大的计算能力和最深层次的理解能力。Pro版本则致力于在广泛的任务类型上提供优质表现,旨在成为多用途的AI解决方案。Nano版本则专注于效率,适用于那些资源有限但仍需AI能力的设备和应用场景。从性能变现上来看,Gemini展示了超越现有最高水平(SOTA)的性能,这不仅证明了其在技术上的先进性,也展示了其在实际应用中的潜力。特别是在MMLU测试中超越人类专家的成绩,更是突显了其在语言理解和问题解决方面的卓越能力。

图片

图片

AI大模型赋能人形机器人可以被视为迈向通用人工智能的一大步。人形机器人是一种能够模拟人类外貌、行为和交流的机器,结合AI大模型的能力,可以实现更高级别的人工智能功能。 首先,AI大模型的强大计算能力和学习能力使得人形机器人能够更加准确地理解和模仿人类的动作和表情。通过对大量数据的学习,AI大模型能够理解并推断人类的情绪、意图和行为,从而更好地与人类进行交互和沟通。这种与人类的自然交流方式可以让机器人更好地融入人类社会,满足人类的各种需求。 其次,AI大模型赋能人形机器人在应用领域具有广泛的潜力。例如,在医疗领域,人形机器人可以通过感知和理解病人的情绪和需求来提供情感支持和护理服务。在教育领域,人形机器人可以根据学生的学习情况和兴趣定制教学内容,提供个性化的教育体验。在服务行业中,人形机器人可以担任引导员、导游员等角色,为人们提供导航和咨询服务。 最后,AI大模型赋能人形机器人还有助于推动人工智能技术的发展和创新。通过将大模型机器人相结合,各种新的应用和功能不断涌现出来。同时,人形机器人的使用也可以促进对于伦理、隐私和安全等相关问题的讨论和解决。 总的来说,AI大模型赋能人形机器人是迈向通用人工智能的一大步。它能够实现更加准确和自然的人机交互,拓展人工智能在各个领域的应用,并推动人工智能技术的发展和创新。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值