系列文章目录
Figure AI 公司和Figure 02机器人技术深入挖掘(公司介绍)
1、概述
Figure-02 进行了“彻底的硬件和软件重新设计”,包括对人工智能系统、计算机视觉、电池组、电子设备、传感器和执行器的升级,采用了总共数千个部件,数百个独特部件,在外观、一体化关节、执行器、仿生足部、灵巧手、头部及全身活动范围等方面均有显著提升,有望提升人形机器人在工业制造和仓库物流领域的运动性能与工作效率。
Figure 02的应用场景包括但不限于:
- 医疗康复:辅助行动不便的患者完成日常任务。
- 教育与研究:作为研究平台推进人机交互技术。
- 服务行业:在酒店、机场等场景下提供导航和咨询服务。
- 工业自动化:在危险或复杂环境中代替人类执行任务。
2、硬件架构
2.1、机械设计
Figure 02 整机重量70kg,身高172cm,包含约 20-40 个关节自由度,覆盖头部、手臂、腿部等主要关节。
- 外骨骼架构
采用类似飞机机身的集成化外骨骼结构,由高强度外壳承担负载和压力,替代传统内部框架设计。这种设计提升了整体刚性,同时减轻重量,优化移动性能。
内部集成定制化布线系统,隐藏电源和算力线路,减少故障风险并增强封装紧实度,以满足灰尘、腐蚀、防水等特殊工业现场的应用。 - 仿生手部系统
第四代灵巧仿生手,具备16个自由度,尺寸与人类手掌相当,可执行精密抓握和操作任务。
负载能力达25公斤,黑色点阵式皮肤或集成触觉传感器,增强抓握灵敏度和环境适应性。 - 关节与执行器
关键关节扭矩参数:肩关节50Nm(运动范围148°)、膝关节150Nm(135°)、髋关节150Nm(195°),支持大范围灵活运动。
2.2、感知和交互系统
- 视觉模块 :配备6个RGB摄像头(分布于头部、前躯干和后躯干),支持360°环境感知和深度识别,结合AI视觉语言模型(VLM)实现快速常识性推理。并没有配置激光雷达用于感知,但不知道后期迭代版本是否会增加。
- 语音交互:内置麦克风与扬声器,搭载OpenAI定制的语音到语音推理模型,支持自然对话交互,语音作为默认操作界面。
2.3、计算模块设计
搭载NVIDIA RTX GPU模块,机载计算与AI推理能力较前代提升3倍,支持完全自主执行现实任务。型号未知,待补充。
2.4、 模块化与扩展性
采用可更换组件设计(如腿部、电池组),便于维护和功能升级。
外骨骼结构预留模块化接口,支持未来拓展更多应用场景
2.5、 动力与续航系统
- 电池组:内置2.25千瓦时定制电池组,能量密度较前代提升50%以上,支持连续工作5小时,目标实现每日有效工作时间超20小时
3、软件架构
3.1、全身控制算法架构
-
Figure 01:基于OpenAI VLM模型的分层控制架构
Figure 01 是 Figure AI 公司推出的第一代人形机器人,作为技术验证和积累的早期产品。Figure 01机器人发布时,Figure AI公司和OpenAI公司属于合作关系,因此机器人采用了分层控制架构。即:- 顶层基于OpenAI 训练的大型视觉语言模型(VLM),用于语音识别和交互,提供高级视觉和语言智能。根据用于语音指令和图像传感器的感知情况,进行动作规划,传递到下一级神经网络中。其中,Figure 01 的VLM模型以10Hz的频率采集图像。
- Figure 01 神经网络模型同样以10Hz的频率获取图像传感器的图像,提供快速、低级、灵巧的机器人动作规划,并以200Hz的频率输出机器人原子级别控制指令。在图像识别和感知中,Figure 01采用了大量机器学习算法。
- 底层为全身控制器,用于实现机器人运动、抓取等作业中,电机的协同控制,底层控制器控制频率为1000Hz。公开资料表明,Figure 01的底层控制中几乎没有采取任何机器学习算法。
Figure 01机器人已经完成十几种不同的行走算法,能有效解决行走中全身主动自由度的协同控制,且有效避免控制和机械不匹配引发的振荡问题。
相比于其他具身机器人的demo视频,Figure 01具有更快的指令-执行的转换速度,可能得益于200Hz的全身指令控制设计,在没有视频加速的情况下指令执行已经非常的流畅和自然。然而从视频展示中也可以看出,Figure 01机器人全身几乎没有移动,桌面上非常的简洁和干净,这可能是因为该demo从数千个预训练动作精心挑取的成功率比较高的场景,并且对环境和指令要求高,因此泛化性能依旧是挑战。
-
Figure 02:Helix VLA软硬件分层控制架构
2025年2月20日,Figure AI公司推出了Figure 02通用类人形控制的一个视觉-语言-动作模型Helix(Vision-Language-Action Model for Generalist Humanoid Control)。Helix统一了感知、语言理解和学习控制,以克服机器人学中多个长期存在的挑战。
在架构上,Helix采用了类Figure 01一样的分层控制策略,即- 预训练视觉-语言-动作模型(VLA)模型执行顶层思考和规划,用于场景理解和语言理解,能够实现跨对象和情境的广泛泛化,其参数量为7B。其中,该模型对关节电机传感器、图像的采样频率为7-9Hz,指令输出频率为7~9Hz,猜测采样和输出为同步进行。
- 80M的Transformer解码器进行快速的动作规划,快速反应的视觉运动策略,将 VLA模型 产生的潜在语义表示转换为 200Hz 的精确连续机器人动作。
- 底层为全身控制器,用于实现机器人运动、抓取等作业中,电机的协同控制。