人形机器人专题:人形机器人产品方案对比,百花齐放,各擅胜场

今天分享的是人形机器人系列深度研究报告:《人形机器人专题:人形机器人产品方案对比,百花齐放,各擅胜场》。

(报告出品方:国泰君安证券

报告共计:25

来源:人工智能学派

特斯拉人形机器人迭代迅速,从执行层到控制层进化明显

特斯拉机器人产品迭代迅速,产品性能进步明显。2021 年 8 月,在特斯 拉 AI DAY 上,马斯克公布人形机器人初步设计方案,仅 1 年后,Optimus 实现了从概念到整机的落地,已具备了行走、拾取、搬运等能力;2023 年 5 月,发布的视频中,机器人可以实现多个机器人同步独立向前流畅 行走,手指关节能够灵活抓取鸡蛋等物品,已具备了电机扭矩控制、环 境感知与记忆、基于人类演示训练机器人、端到端操作操作的能力;2023 年 9 月,Optimus 的视觉感知能力提升明显,可通过视觉与关节位置编 码器,在空间中精确定位四肢,能够自我校准手臂和腿,同时可自主按 照颜色对物品进行筛选分类与排序,神经网络实现端到端训练学习。此 外,机器人手部抓取与全身平衡表现亮眼,可通过手指灵活抓取物品并 放置指定位置,同时可做出类人的全身伸展运动,包括瑜伽单腿站立并 保持平衡。2023 年 12 月特斯拉发布 Optimus-Gen 2,较一代相比,二代 不论是在性能还是设计上,均有更大创新和提升。

Optimus-Gen 2 较一代产品性能提升明显,传感器和执行器优化显著。 从特斯拉发布的最新视频可以看到:1)该版本的机器人配备了特斯拉 设计的执行器和传感器,更加精致美观;2)2 个自由度的颈部执行器; 3)执行器集成电子线束,行走速度提高 30%,重量减轻 10 公斤;4) 脚力/扭矩传感器(预计为六维力传感器),并且搭配铰接式脚趾部分, 足部形态更加接近人体的足部形态;5)手部为 11 个自由度的灵巧手, 更快更灵活,所有手指都有触觉感应,能更精确的对物体进行控制;6) 平衡性进一步改进,机器人在平衡自身的同时能够进行 90 度深蹲,在 降低自身重量后,表明特斯拉在算法和传感器等方面做了更多优化。

端到端大模型配合 Dojo 超算中心及自研的 D1 芯片,加快机器人进化。 目前人形机器人大规模落地重大难点是泛化和续航问题,解决泛化问题 的核心在于算法、算力、数据,解决续航问题核心在电池。特斯拉相较 于其他厂商优势在于:特斯拉通过其自研的端到端大模型作为人形机器 人大脑算法,其 Dojo 超算中心及自研 D1 芯片提供海量算力,其工厂作 为初步应用场景,提供测试数据。根据 2023 年 9 月特斯拉 Optimus 视频 展示,其神经网络能实现端到端训练学习,输入视频即可实现输出控制, 从而实现自我校准手臂和腿,自主按照颜色对物品进行筛选分类与排序。 特斯拉在自动驾驶 FSD V12 开发积累的丰富神经网络训练经验,将有助 于未来特斯拉人形机器人加速泛化。

大模型加持人形机器人,产业发展步入快车道

大模型兼顾预训练和微调功能,是机器人的理想“大脑”。2017 年谷歌 提出了基于自注意力机制的 Transformer 神经网络架构,成为当前预训练 大模型的基础。后续伴随 GPT-1、BERT、GPT-2、GPT-3、GPT-4 等模 型的推出,模型的参数规模突破了百万亿量级。大模型(Foundation Models)能够实现在无标注的数据上进行预训练,从而根据数据特征探 索普适的规律,形成强大的泛化能力,后续仅需利用专用的小规模的标 注数据对模型进行微调(fine- tuning),即可提升模型泛化能力并减少过 拟合。大模型兼顾强大的涌现能力,当模型数据量级突破一定阈值时, 模型能够涌现出之前设计预期之外的、解决复杂问题的“思考能力”。

人形机器人发展潜力在于其通用性,大模型助力具身智能演进。当前诸 如送餐机器人、扫地机器人等特定应用场景下的机器人产品广泛推出, 人形机器人相较于此类产品的核心优势在于其强大的通用性,未来应用 场景将不再局限于特定领域,而在各领域的广泛适用。这要求具身智能 产品具备智能体(Embodied Agents),能够自主完成感知、理解、决策 等重要工作,具备“举一反三”的泛化能力。而大模型所具备的强大泛 化能力和涌现能力与之契合,当前众多厂商已开始尝试将大模型用于训 练具身智能产品,微软提出基于 ChatGPT 自动生成控制机器人的相关代 码;谷歌推出了诸如 PaLM-E、RoboCat、RT-2、RT-X 等一众模型。长期看,软件模型持续精进将有效推进人形机器人应用场景拓展,推动具 身智能高速演进。

谷歌:机器人大模型路线众多,迭代迅速。2022 年 4 月,谷歌首次推出 机器人大模型 SayCan,其决策思路可分解为 Say 和 Can,Say 结合了谷 歌的大语言模型将目标任务进行拆分,Can 通过计算不同实现任务方式 的成功概率,挑选最优的决策。SayCan 对后续大模型开发具有一定启发 作用,2022-2023 年期间,谷歌相继发布了 RT-1、PaLM-E、RT-2、RT-X 等机器人大模型。2023 年 10 月,Google 开放了 Open X-Embodiment 训 练数据集,数据集包括来自 21 个机构的 22 种机器人的数据,包括 527 项技能和 160266 项任务。通过该数据集分别训练 RT-1、RT-2 后,得到 RT-1-X、RT-2-X 两个模型。RT-1-X 模型加持下,机器人的平均表现比 RT-1 模型、原始模型提升接近 50%;RT-2-X 模型加持下,机器人的涌现能力表现比 RT-2 模型下提升至 3 倍。

国内大模型厂商蓬勃发展,具身智能+大模型是核心方向。ChatGPT 推 出以来,国内大模型厂商如雨后春笋般涌现,目前包括百度(文心一言 大模型)、阿里(通义大模型)、华为(盘古大模型)、字节跳动(云雀 大模型)、科大讯飞(星火大模型)等在内的行业内领先企业均推出自 己的大模型产品。根据大模型开源开放评测体系司南的 2023 年度大模 型评测榜单显示,GPT-4-Turbo表现最佳,智谱清言的GLM-4紧随其后。 多模态大模型丰富了机器人认知和决策层面,该技术有望使机器人在复杂交互、自然语言理解和环境适应等领域迈出重大进步,具身智能+大 模型是未来的核心研究方向之一,部分国内厂商已经开始加速研发。 2024 年 1 月 5 日,达闼机器人的基础大模型算法、RobotGPT 多模态具 身大模型算法正式通过了国家互联网信息办公室公布了第三批深度合成服务算法备案。RobotGPT 多模态具身大模型加持下,机器人有望具 备强大的语言生成和处理、情感分析、视觉语言操作、表情动作生成、 自主行为决策等多模态输入输出功能。此外,智元机器人于 2023 年 8 月 18 日也提出了具身智脑 EI-Brain 的设计框架。国内厂商相继推出具 身智能设计框架,带动产业发展步入快车道。

人形机器人驱动方式对比:液压驱动和电驱方案各有优劣

液压驱动方案机器人在特定应用场景具备优势。目前特斯拉及国内机器人厂商产品均为电动方案,而液压驱动方案中,波士顿动力是代表公司, 其阿特拉斯机器人 Atlas 为代表产品,以液压驱动全身,液压驱动系统 的工作原理是以压缩机油来驱动执行机构进行工作,Atlas 腰上黑色管子 就是腿部关节和背着油箱和液压泵连接所用的管路。液压驱动的输出力 和功率很大,能构成伺服机构,常用于大型机器人关节的驱动,大多用 于要求输出力较大的场合,除了力量大以外,因为液体的“弹性”,使 用液压驱动系统也会让动作的发力受力更加平滑,因此,在一些特殊应 用场景,如安保、恶劣环境的应急响应(如危险环境中的探索和救援、 灾害救援或野外探险)方面能够发挥作用。国内方面,哈尔滨工业大学 机电工程学院机器人与系统国家重点实验室的团队研发了一种高机动 性、高适应性的液压动力自主轮腿机器人系统——WLR-3P 机器人,可 以在平坦路面快速高效移动,在崎岖的地形环境中适应性也非常强。

报告共计:25页

来源:人工智能学派

  • 15
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值