Figure AI 公司和Figure 02机器人技术深入挖掘(机器人架构)

系列文章目录

Figure AI 公司和Figure 02机器人技术深入挖掘(公司介绍)



1、概述

Figure-02 进行了“彻底的硬件和软件重新设计”,包括对人工智能系统、计算机视觉、电池组、电子设备、传感器和执行器的升级,采用了总共数千个部件,数百个独特部件,在外观、一体化关节、执行器、仿生足部、灵巧手、头部及全身活动范围等方面均有显著提升,有望提升人形机器人在工业制造和仓库物流领域的运动性能与工作效率。
Figure 02的应用场景包括但不限于:

  • 医疗康复:辅助行动不便的患者完成日常任务。
  • 教育与研究:作为研究平台推进人机交互技术。
  • 服务行业:在酒店、机场等场景下提供导航和咨询服务。
  • 工业自动化:在危险或复杂环境中代替人类执行任务。
    在这里插入图片描述

2、硬件架构

2.1、机械设计

Figure 02 整机重量70kg,身高172cm,包含约 20-40 个关节自由度,覆盖头部、手臂、腿部等主要关节。

  • 外骨骼架构
    采用类似飞机机身的集成化外骨骼结构,由高强度外壳承担负载和压力,替代传统内部框架设计。这种设计提升了整体刚性,同时减轻重量,优化移动性能。
    内部集成定制化布线系统,隐藏电源和算力线路,减少故障风险并增强封装紧实度,以满足灰尘、腐蚀、防水等特殊工业现场的应用。
  • 仿生手部系统
    第四代灵巧仿生手,具备16个自由度,尺寸与人类手掌相当,可执行精密抓握和操作任务。
    负载能力达25公斤,黑色点阵式皮肤或集成触觉传感器,增强抓握灵敏度和环境适应性。
  • 关节与执行器
    关键关节扭矩参数:肩关节50Nm(运动范围148°)、膝关节150Nm(135°)、髋关节150Nm(195°),支持大范围灵活运动。

2.2、感知和交互系统

  • 视觉模块 :配备6个RGB摄像头(分布于头部、前躯干和后躯干),支持360°环境感知和深度识别,结合AI视觉语言模型(VLM)实现快速常识性推理。并没有配置激光雷达用于感知,但不知道后期迭代版本是否会增加。
  • 语音交互:内置麦克风与扬声器,搭载OpenAI定制的语音到语音推理模型,支持自然对话交互,语音作为默认操作界面。

2.3、计算模块设计

搭载NVIDIA RTX GPU模块,机载计算与AI推理能力较前代提升3倍,支持完全自主执行现实任务。型号未知,待补充。

2.4、 模块化与扩展性

采用可更换组件设计(如腿部、电池组),便于维护和功能升级。
外骨骼结构预留模块化接口,支持未来拓展更多应用场景

2.5、 动力与续航系统

  • 电池组:内置2.25千瓦时定制电池组,能量密度较前代提升50%以上,支持连续工作5小时,目标实现每日有效工作时间超20小时

3、软件架构

3.1、全身控制算法架构

  • Figure 01:基于OpenAI VLM模型的分层控制架构
    Figure 01 是 Figure AI 公司推出的第一代人形机器人,作为技术验证和积累的早期产品。Figure 01机器人发布时,Figure AI公司和OpenAI公司属于合作关系,因此机器人采用了分层控制架构。即:

    • 顶层基于OpenAI 训练的大型视觉语言模型(VLM),用于语音识别和交互,提供高级视觉和语言智能。根据用于语音指令和图像传感器的感知情况,进行动作规划,传递到下一级神经网络中。其中,Figure 01 的VLM模型以10Hz的频率采集图像。
    • Figure 01 神经网络模型同样以10Hz的频率获取图像传感器的图像,提供快速、低级、灵巧的机器人动作规划,并以200Hz的频率输出机器人原子级别控制指令。在图像识别和感知中,Figure 01采用了大量机器学习算法。
    • 底层为全身控制器,用于实现机器人运动、抓取等作业中,电机的协同控制,底层控制器控制频率为1000Hz。公开资料表明,Figure 01的底层控制中几乎没有采取任何机器学习算法。

Figure 01机器人已经完成十几种不同的行走算法,能有效解决行走中全身主动自由度的协同控制,且有效避免控制和机械不匹配引发的振荡问题。
在这里插入图片描述

相比于其他具身机器人的demo视频,Figure 01具有更快的指令-执行的转换速度,可能得益于200Hz的全身指令控制设计,在没有视频加速的情况下指令执行已经非常的流畅和自然。然而从视频展示中也可以看出,Figure 01机器人全身几乎没有移动,桌面上非常的简洁和干净,这可能是因为该demo从数千个预训练动作精心挑取的成功率比较高的场景,并且对环境和指令要求高,因此泛化性能依旧是挑战。


  • Figure 02:Helix VLA软硬件分层控制架构
    2025年2月20日,Figure AI公司推出了Figure 02通用类人形控制的一个视觉-语言-动作模型Helix(Vision-Language-Action Model for Generalist Humanoid Control)。Helix统一了感知、语言理解和学习控制,以克服机器人学中多个长期存在的挑战。
    在架构上,Helix采用了类Figure 01一样的分层控制策略,即

    • 预训练视觉-语言-动作模型(VLA)模型执行顶层思考和规划,用于场景理解和语言理解,能够实现跨对象和情境的广泛泛化,其参数量为7B。其中,该模型对关节电机传感器、图像的采样频率为7-9Hz,指令输出频率为7~9Hz,猜测采样和输出为同步进行。
    • 80M的Transformer解码器进行快速的动作规划,快速反应的视觉运动策略,将 VLA模型 产生的潜在语义表示转换为 200Hz 的精确连续机器人动作。
    • 底层为全身控制器,用于实现机器人运动、抓取等作业中,电机的协同控制。

在这里插入图片描述

### Figure人形机器人的训练方法详解 #### 数据准备阶段 为了使Figure人形机器人能够执行复杂的任务并具备良好的泛化能力,在训练之前需收集大量的高质量数据集。这些数据不仅限于静态图像或视频片段,还包括传感器读数、动作捕捉序列以及环境交互记录等多模态信息[^1]。 #### 模型构建与初始化 采用深度神经网络作为核心算法框架来处理上述提到的各种输入信号。特别是对于视觉理解部分,可以利用预训练的大规模卷积神经网络(CNNs),而对于运动规划,则倾向于使用循环神经网络(RNNs)或者更先进的Transformer架构来进行建模。此外,引入具身智能概念有助于增强模型对物理世界的认知水平。 #### 自主导航与操作技能获取 借助仿真平台如LucidSim所提供的高效模拟器,可以在虚拟环境中快速迭代测试不同的策略组合,并通过迁移学习机制将所学得的知识迁移到实际硬件平台上。此过程中会涉及到世界模型的学习,即让机器人学会预测其行为对未来状态的影响;同时也涵盖了空间智能的发展,帮助它更好地理解应对周围的空间布局变化[^2]。 #### 强化学习优化性能表现 当基本功能开发完成后,进一步提升系统的鲁棒性灵活性可通过在线/离线两种方式实施强化学习。前者允许机器人实时调整参数以适应新情况的发生,而后者则是基于历史经验库进行批量更新权重设置。值得注意的是,奖励函数的设计至关重要,因为它直接影响着最终收敛的方向速度。 #### 实际部署前的验证环节 最后,在正式投入使用之前还需要经历一系列严格的评估流程,确保各项指标均达到预期标准。这期间可能会反复修改完善先前制定的各项计划直至满意为止。同时也要考虑到安全因素,防止意外事故的发生[^4]。 ```python # Python伪代码展示了一个简化版的人形机器人训练流程 def train_robot(): data = collect_multimodal_data() model = initialize_model_with_pretrained_weights() while not convergence: simulated_experience = run_simulation(model, environment) real_world_performance = transfer_learning(simulated_experience) reward_function = design_reward_based_on_task_requirements(real_world_performance) update_policy_via_reinforcement_learning(reward_function) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

demaker

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值