关于具身智能
它现在发展到什么程度了呢?。
美国时间3月13日
早晨
火遍硅谷、OpenAI重金押注的人形机器人公司Figure AI
在X
上放出一段最新的demo视频
效果十分炸裂
Figure 01 demo
Figure 01现在不仅会看会听
还能和人类进行自由对话了
视频中总共展示了以下几组行为
首先询问机器人能看见什么
Figure 01清晰描述了一切
包括视角正中的红苹果
、放有杯碟的沥水架
、以及站在面前的工作人员
和他搭在桌上的右手
接着工作人员问,可以给我点吃的吗?
Figure 01把苹果拿起递过去
并按照要求
一边清理工作人员刚倾倒在桌面的纸团
一边解释刚刚的行为
,我给了你苹果
因为我觉得这是桌上唯一能吃的东西
然后自然而然地把收好在篮子里的纸团
给回到工作人员
工作人员又问,根据现在你看见的
你面前的碟子应该放到哪儿去?
Figure 01思考片刻做出判断
杯碟应该归置进晾晒架
虽然按照指令放好
最后一步
工作人员让它自己评价任务完成的怎么样
Figure 01自信地回答道
我觉得我做得很不错
苹果找到了新主人
,垃圾清理了
桌面上的东西各归各位
demo视频中的Figure 01
用的是3月9日的更新版本
由OpenAI技术加持
令人想象不到的是
从两周前
双方宣布合作
决定共同开发下一代人形机器人AI模型
推进机器人学习边界
到现在面前这个科技感满满的人形GPT
仅仅用了13天
而且根据Figure AI的创始人布拉特·阿德科克Bratt Adcock
称
所有这些行为都没有经过远程操作
都是机器人通过自我学习得来的
并且以正常的1倍速连续拍摄
没有经过加速、剪辑
完全的所见即所得
我们其实可以感受到
视频中Figure 01的速度已经快要接近人类
能力介绍
具体来看
这一次Figure 01体现出的炸裂能力有几点
1、识别周围环境,准确描述视觉体验
视频开头它就说看到桌上的苹果
和面前站着的人类
2、推理和决策下一步的行动
比方说
桌子上的盘子和杯子
很可能需要放在沥水架
上
3、将模棱两可的请求
翻译成一些与上下文相关的行为
比如将对方说的,我饿了
有没有吃的
转换成“递给这个人一个苹果”
的行动
4、用语言来解释推理过程
比如说道“苹果是这里唯一能吃的”
。
5、反思自己的记忆然后做出判断
也就是在视频最后回顾了全套行为
并且基于常识给出了评价
这一切又是究竟如何完美实现的呢?
领导该项目的高级AI工程师科里·林奇Corey Lynch
发文解释了背后原理
他表示
Figure 01正是通过与OpenAI提供的大模型连接起来
才被赋予了这些“有趣的新功能”。
他们将机器人摄像头拍摄到的图像和机载麦克风捕捉到的语音
转录成文本
然后输入到由OpenAI预训练的大型多模态模型
中
这个模型不仅能够理解图像和文本
而且在处理整个对话历史
、包括过去的图像
后
能够做出语言回应
这些回应再通过文本转语音
最终传递给人类
所有这些行为都由神经网络视觉运动转换器策略所驱动的
以10Hz频率
输入机载图像
交给大模型处理
大模型推理预测下一步的行为
然后将像素映射到200Hz、24个自由度的动作
包括手腕姿势
和手指关节角度
最后直接输出结果
整个过程只需要依靠端到端的机器人控制
而无需经过中间过程的编码
更新后的Figure 01还有一个优势
就是接入的OpenAI大模型能理解历史对话
为机器人提供了强大的短期记忆
从而可以理解上下文语义
做出准确的判断和执行
比如demo视频里甄别过杯子盘子应该放回沥水架后
工作人员下达指令
“Can you put them there?”
这其中代指的“them”和“there”是很模糊的
但是预训练模型
通过分析对话历史记录
就能促使Figure 01迅速形成答案
并输出两个动作
将杯子放在沥水架上
以及将盘子放在沥水架上
除此以外
机器人基于视觉运动策略学习到的行为
执行更加快速、反应更加灵敏
相比之下
有些行为想要提前手动指定是很难的
比如在任何位置操纵一个可变形的袋子
同时
一个整体的全身控制器能确保Figure 01保持平衡
时刻处于安全稳定的动态
中
除了人工智能加持外
Figure 01还垂直整合了由专业工程师设计的所有系统
包括电机、固件、热力学组件、电子设备、中间件操作系统、电池系统、动作传感器、机械和结构等等
根据阿德科克的透露,在成本方面
一个人形机器人大约有1000个零件
重量大约150磅,相当于68公斤
而电动汽车可能有约1万个零件
重达4000-5000磅
相当于1800-2250公斤
因此,长期来看
人形机器人的成本有望低于廉价电动汽车
这取决于执行器、电机组件、传感器
的成本及计算成本
对于这次更新,网友们反应极度热烈
有人说
能够做出一个能帮你刷碗打扫屋子的智能机器人
Figure AI已经赢麻了
还有人已经想象到了商业化适用场景
认为Figure机器人似乎可以成为盲人群体的向导
更有网友不留情面地调侃波士顿动力
应该让实验室给机器人研究点新舞步
了
甚至有网友感叹
和Figure 01机器人对视8秒会不会被暴揍
13天前
Figure AI的最新估值还是26亿美元
而今两周过去,估值应该是多少?
有网友回答到,不可估量
Figure AI
我们再来介绍一下Figure AI这家最近硅谷备受关注的创业新星
公开资料显示
机器人公司Figure成立于2022年
公司成立之初就瞄准了通用人形机器人领域
创始人布雷特·阿德科克Brett Adcock
是一位连续创业者
已经创办过7家公司
其中一家以27亿美元
的估值上市
一家被1.1亿美元
的价格收购
首席技术官杰里·普拉特Jerry Pratt
是MIT研究员
一直在机器人领域工作
机器人控制主管由前波士顿动力/苹果工程师迈克尔·罗斯Michael Rose
担任
AI团队负责人科里·林奇Corey Lynch
则是前Google Deepmind的研究员
融资
截止目前,公司一共获得过三次融资
分别在2023年4月获得Aliya Capital Partners
等10家投资者的7000万美元A轮融资
当年7月再次获得Big Sky Partners
和Intel Capital
的900万美元融资
两周前
Figure则宣布完成了6.75亿美元
的B轮大额融资
投资人包括亚马逊创始人贝索斯
以及微软、英伟达、OpenAI等等
当前,公司估值已飙升至26亿美元
而获得融资后的Figure
“进化”速度也是出奇的快
今年1月
Figure 01通过端到端神经网络
仅用10小时训练就掌握了制作咖啡的技能
引得众多网友感叹
而一个月后,Figure 01已经学会了
搬运箱子并运送至传送带的新技能
尽管速度仅为人类的 16.7%
。
宏大蓝图
在Figure公司的官网上
阿德科克Adcock阐述了他的宏大蓝图
上面写到
Figure旨在研发出能对人类生活产生积极影响、为后代创造更美好生活环境的通用型人形机器人
这类机器人有望消除那些既危险又不受欢迎的工作
从而让我们拥有更加幸福、更有价值的生活
他同时也不忘强调
达成这一愿景需要数十年的努力
并且组建一支矢志不渝追求这一使命的顶尖团队
投入数十亿美元的资金
以及通过工程技术创新
来实现大规模的市场影响力
不过当前面临的风险极高
成功的可能性相对较低
在商业化层面
Figure与宝马制造公司
签订了商业协议
将AI
和机器人技术
融入汽车生产线
并部署在宝马位于南卡罗来纳州斯巴达堡的制造工厂
更重要的是
OpenAI同时公开了与Figure
更进一步合作的计划
将多模态大模型
的能力扩展到机器人的感知、推理和交互
上
开发能够取代人类进行体力劳动的人形机器人
其实
OpenAI之前也曾想自己搞机器人
但是后来在2021年宣布无限期终止对机器人领域的探索
原因是缺乏训练机器人使用人工智能移动和推理所需的数据
研发受阻
但是显然
OpenAI对这个领域的关注仍在继续
除了砸钱并与Figure合作
在2023年3月
OpenAI还投资了来自挪威的机器人制造商1X Technologies
无独有偶
1X Technologies
的技术方向
也是端到端的神经网络对于机器人的控制
在OpenAI的技术支持下
Figure无疑将给包括特斯拉
、亚马逊
和众多初创企业
在内的竞争对手
带来压力
与此同时
这个赛道仍然在不断地涌入新玩家
比方说本周刚刚成立的Physical Intelligence
以及众多开发者熟悉的Hugging Face公司
前一段时间
英伟达创始人黄仁勋也曾表示
具身智能将引领下一波人工智能浪潮
英伟达内部在今年2月份
就由英伟达高级研究科学家Jim Fan
携手组建了一支研究小组
名为GEAR
全称是Generalist Embodied Agent Research
专注于通用具身智能的研究
现在有了大模型的通用能力
很多人说闭上眼
已经可以想象出Figure 01在自己身边工作的情景了
机器人将不再是实验室里可看不可得的观赏品
真正的具身智能也许比我们想象的更快到来
机器人专家Eric Jang
曾提出他的观点
那就是尽管许多AI研究者认为
通用机器人的普及还需数十年
但是别忘了
ChatGPT的诞生仿佛几乎也就在一夜之间
一年前的今天
OpenAI震撼发布了GPT-4
向世界证明了大模型的强大威力
一年后的今天,我们虽然没等来GPT-5
但是也迎来Figure 01
而等我们未来再回顾的时候
这会是人形机器人的GPT-4时刻吗?