大模型赋能人形机器人_ai机器人的能力依靠大模型-CSDN博客

本文链接：https://blog.csdn.net/m0_50836864/article/details/142553831

1. 人形机器人是 AI 进入现实世界的载体

1.1 人形机器人是实现通用人工智能最有效的途径

通用人工智能需要满足 4 个必备条件，分别为智能涌现、自主代理、功能可见以及现实具象的能力。智能涌现是大模型具备强大推理能力的一个基础条件，只有具备了智能涌现这样一个基础表现的现象后，继续增加模型节点数和训练数据量去训练大模型才能够成为一条可行的路径。自主代理即当接收到环境信息或外部的指令后，能够根据环境采取不同的决策，这种自主代理的能力能够使机器更好的去适应环境和完成复杂的任务。功能可见即理解世界和环境中实物的一种能力，目前大模型只是具备了理解抽象世界的能力。现实具象性相对目前的人工智能而言的，目前大模型是在相对抽象的代码世界里完成的，并没有和现实的传感器、执行器等紧密的结合。

目前的大模型已经满足智能涌现和自主代理，即能够根据指令按照一系列的思维链完成复杂的内容输出，但功能可见性和现实具象性是目前大模型所欠缺的。我们认为智能机器人将会是实现功能可见性和现实具象性最有效的路径。

1.2 人形机器人在逻辑上全面对标人类

人形机器人参考人类身体，可在逻辑上全面对标人类。分为“眼鼻喉、皮肤”、“大脑”、“小脑”、“身体”，分别完成感知输入、感知处理/交互/决策/规划、运动控制、机械执行等功能。感知输入主要由外部传感器完成，包括视觉、嗅觉、听觉、触觉传感器等；感知处理/交互/决策/规划主要由CPU/GPU/NPU/DSP、OS、AI算法、SLAM 算法等完成；运控控制主要由CPU/MCU、RTOS、运动控制算法完成；机械结构主要由线性执行器、旋转执行器、灵巧手、躯干、内部传感器完成。我们认为机械结构和外部传感器决定了人形机器人智能化的下限，而“大脑”、“小脑”决定了智能化上限。而随着AI 大模型的发展，我们认为有望全面升级人形机器人“大脑”和“小脑”。

2. 大模型能全面赋能人形机器人“大脑”和“小脑”

2.1 AI 大模型的发展使人形机器人具备了 “交互&决策”能力

AI 大模型的发展使人形机器人具备了“交互&决策”能力。2022年底，ChatGPT、 Midjourney、Stable Diffusion 等相继亮相，AI 大模型展示出很大潜力，推动了人工智能在各行各业的应用，也掀起了以人形机器人为代表的“具身智能”的发展热潮。NLP 大模型如 ChatGPT、Gemini 等，具备上下文理解、多轮对话以及文学创造等能力，加速了人和机器人之间的自然语言交互进程；CV 计算机视觉大模型的发展增强了分类、目标检测、语义分割、深度估计四大视觉核心任务的完成精确度，大大提升了机器人的环境感知能力；不同于单模态大模型的单一类型数据处理，多模态大模型可以处理文本、图像、视频或音频等多种类型的数据，使得机器人具备各感官融合决策的能力，提升了机器人的推理决策功能。我们认为在AI大模型的加持下，人形机器人有望具备非常强大的交互和决策能力，能够根据环境或人的指令，对自己的行为做出决策。

2.2 基于大模型的纯视觉自动驾驶感知方案可迁移至人形机器人

基于大模型的纯视觉自动驾驶感知方案可直接迁移至人形机器人。视觉是最为经济高效的方案，视觉图片的信息密度和信息量是最大的驾驶感知途径（灯光、颜色、图案、物质的类型、材质）（位置、距离、速度）。通过视觉 SLAM 算法动态构建向量空间（Vector Space）,精准到每个像素点的三维空间，生成BEV鸟瞰图，让车或者机器人在立体的空间中运动。同时在算法中引入了 Transformer模型，使算法精度不断提高。我们认为大模型的发展有望使人形机器人的感知越来越智能。

2.3AI大模型将提升机器人决策、规划和导航能力

AI大模型将提升机器人决策、规划和导航能力，以特斯拉为例，大模型持续优化大幅提升FSD的安全性以及规划效率。在特斯拉投资者日披露了FSD beta的碰撞数据，使用FSD beta每320万英里行驶中只有1次碰撞，而美国司机平均50英里就有一次碰撞，FSD系统的安全性是美国平均驾驶安全性的5-6倍。而特斯拉自动标注系统能够快速标注海量数据来对FSD算法模型进行训练，在规划算法中引入大模型，提升了规划路径的效率。我们认为大模型有望提升智能汽车和人形机器人的决策、规划和导航能力。

2.4 AI大模型有望赋能人形机器人运动控制

AI大模型使任务级编程成为可能，有望赋能人形机器人运动控制。当前机器人的通用性普遍较弱，基本上只是针对一个特定的任务或需求设计、制造机器人，如零件组装机器人、扫地机器人等。主要的技术瓶颈有两个：一是机器人的硬件形态限制了机器人的用途；但更重要的原因在于软件层面暂时无法做到任务级编程。所谓任务级编程，指的是根据人下达的指令，实时编写出完成指令对应的程序并执行，使一个机器人能够完成各种任务。我们认为大模型具备较强的自然语言处理等能力，可以有效帮助机器人首先理解任务内容，然后将任务拆解，最后编程执行，完成任务，这将使得任务级编程成为可能。

3. 科技巨头将率先推动大模型在人形机器人领域的应用

3.1 ChatGPT 横空出世标志着大模型“奇点”来临

2022年11月由微软投资的OpenAI率先推出了ChatGPT产品，ChatGPT是 OpenAI 开发的智能聊天平台，推出仅仅2个月，注册用户已经过亿，引发了此轮AIGC浪潮。当前 ChatGPT已经实现商业化，面向公众用户提供Plus会员服务（高级版账号升级），可以提供更好的聊天体验。同时OpenAI API与微软面向开发者提供API调用服务。我们认为OpenAI商业化不但可以缓解日益庞大的训练和推理所需的算力资源的成本压力，而且是检验产品用户满意度的最好方式，同时也有利于产品不断迭代。

3.2 大语音模型能力延伸至具身智能领域

我们认为大语言模型（LLM）到达了“iPhone 时刻”，能力延伸至具身智能领域。大语言模型拥有较高的理解和认知能力,大幅提升人机交互水平，大语言模型同时拥有较高的编程能力，可替代工程师编写或优化机器人控制代码。

以OpenAI 的 ChatGPT 为例，当前机器人依赖专业工程师深度编码参与，且需多次迭代机器人执行任务的代码，由工程师编写、迭代升级过程很慢（用户需要编写低级代码）、成本高昂（需要对机器人技术有深入了解的高技能用户）、效率低下（需要多次迭代才能使事情正常工作）。ChatGPT解锁了新的机器人范式，并允许（可能是非技术性的）用户参与循环，向大语言模型 (LLM) 提供高级反馈，同时监控机器人的性能。通过遵循设计原则，ChatGPT 可以为机器人场景生成代码。无需任何微调，我们就利用大模型的知识来控制不同形状的机器人来执行各种任务。在我们的工作中，展示了ChatGPT解决机器人难题的多个示例，以及在操纵、航空和导航领域的复杂机器人部署。

3.3 多模态大模型开辟机器人大小脑进化的新方法

随着大模型从自然语言领域延伸至图形图像领域，我们认为多模态大模型有望开辟机器人“大脑”、“小脑”快速进化的新方法。机器人将拥有庞大的先验知识库、强大的通识理解能力、复杂语义多级推理能力（思维链或思维树）。

以google的RT-2模型为例，是一种新型的视觉-语言-动作 (VLA) 模型，可以从网络和机器人数据中学习，并将这些知识转化为机器人控制的通用指令，同时保留Internet规模能力。在训练端，机器人动作表达为文本字符串(token)，视觉-语言-动作数据协同微调。为了使RT-2轻松兼容大型预训练视觉语言模型，将机器人动作表示为另一种语言，可以将其转换为文本标记并与互联网规模的视觉语言数据集一起训练。对现有的视觉语言模型与机器人数据进行协同微调。机器人数据包括当前图像、语言命令和特定时间步的机器人动作。将机器人动作表示为文本字符串，如下所示。此类字符串的示例可以是机器人动作标记编号的序列:“1 128 91 241 5 101 127 217”。由于动作被表示为文本字符串，因此可以将它们视为另一种允许我们操作机器人的语言。这种简单的表示使得可以直接微调任何现有的视觉语言模型并将其转变为视觉语言动作模型。

模型的骨干和预训练来学习机器人策略，将其泛化、语义理解和推理转移到机器人控制中。

3.4 原生机器人多模态大模型有望实现视频输入和控制输出

我们认为随着原生多模态模型的不断发展，端到端神经网络有望实现从视频输入到高精度控制输出。以google Gemini为例，是一种原生多模态模型，相比GPT的 ‘拼接’多模态大模型效果更好，因为后者在训练阶段极易遇到瓶颈。谷歌Gemini 此次绕开了文字环节，直接靠视觉和声音来理解世界。我们认为Gemini在机器人感知方面非常适用。从模型架构上来看，Gemini的设计理念是从一开始就考虑如何处理多种形式的数据。这种理念体现了对自然智能的深刻理解，即真正的智能应能够跨越不同数据类型，而不仅仅是文本。从版本分类来看，Gemini的三种版本——Ultra、Pro和Nano——各有其独特的定位和优化目标。Ultra版本为处理高度复杂的任务而设计，它拥有最强大的计算能力和最深层次的理解能力。Pro版本则致力于在广泛的任务类型上提供优质表现，旨在成为多用途的AI解决方案。Nano版本则专注于效率，适用于那些资源有限但仍需AI能力的设备和应用场景。从性能变现上来看，Gemini展示了超越现有最高水平（SOTA）的性能，这不仅证明了其在技术上的先进性，也展示了其在实际应用中的潜力。特别是在MMLU测试中超越人类专家的成绩，更是突显了其在语言理解和问题解决方面的卓越能力。