2024年03月15日_Figure01介绍

最新推荐文章于 2024-07-27 17:06:15 发布

codelyq

最新推荐文章于 2024-07-27 17:06:15 发布

阅读量685

点赞数 22

分类专栏： # 最佳AI 文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_41748874/article/details/138329286

版权

最佳AI 专栏收录该内容

63 篇文章 0 订阅

订阅专栏

文章目录

关于具身智能

它现在发展到什么程度了呢？。

美国时间3月13日早晨

火遍硅谷、OpenAI重金押注的人形机器人公司Figure AI

在X上放出一段最新的demo视频

效果十分炸裂

Figure 01 demo

Figure 01现在不仅会看会听

还能和人类进行自由对话了

视频中总共展示了以下几组行为

首先询问机器人能看见什么

Figure 01清晰描述了一切

包括视角正中的红苹果、放有杯碟的沥水架、以及站在面前的工作人员和他搭在桌上的右手

接着工作人员问，可以给我点吃的吗？

Figure 01把苹果拿起递过去

并按照要求

一边清理工作人员刚倾倒在桌面的纸团

一边解释刚刚的行为，我给了你苹果

因为我觉得这是桌上唯一能吃的东西

然后自然而然地把收好在篮子里的纸团

给回到工作人员

工作人员又问，根据现在你看见的

你面前的碟子应该放到哪儿去？

Figure 01思考片刻做出判断

杯碟应该归置进晾晒架

虽然按照指令放好

最后一步

工作人员让它自己评价任务完成的怎么样

Figure 01自信地回答道

我觉得我做得很不错

苹果找到了新主人，垃圾清理了

桌面上的东西各归各位

demo视频中的Figure 01

用的是3月9日的更新版本

由OpenAI技术加持

令人想象不到的是

从两周前双方宣布合作

决定共同开发下一代人形机器人AI模型

推进机器人学习边界

到现在面前这个科技感满满的人形GPT

仅仅用了13天

而且根据Figure AI的创始人布拉特·阿德科克Bratt Adcock称

所有这些行为都没有经过远程操作

都是机器人通过自我学习得来的

并且以正常的1倍速连续拍摄

没有经过加速、剪辑

完全的所见即所得

我们其实可以感受到

视频中Figure 01的速度已经快要接近人类

能力介绍

具体来看

这一次Figure 01体现出的炸裂能力有几点

1、识别周围环境，准确描述视觉体验

视频开头它就说看到桌上的苹果和面前站着的人类

2、推理和决策下一步的行动

比方说

桌子上的盘子和杯子很可能需要放在沥水架上

3、将模棱两可的请求

翻译成一些与上下文相关的行为

比如将对方说的，我饿了

有没有吃的

转换成“递给这个人一个苹果”的行动

4、用语言来解释推理过程

比如说道“苹果是这里唯一能吃的”。

5、反思自己的记忆然后做出判断

也就是在视频最后回顾了全套行为

并且基于常识给出了评价

这一切又是究竟如何完美实现的呢？

领导该项目的高级AI工程师科里·林奇Corey Lynch

发文解释了背后原理

他表示

Figure 01正是通过与OpenAI提供的大模型连接起来

才被赋予了这些“有趣的新功能”。

他们将机器人摄像头拍摄到的图像和机载麦克风捕捉到的语音

转录成文本

然后输入到由OpenAI预训练的大型多模态模型中

这个模型不仅能够理解图像和文本

而且在处理整个对话历史、包括过去的图像后

能够做出语言回应

这些回应再通过文本转语音

最终传递给人类

所有这些行为都由神经网络视觉运动转换器策略所驱动的

以10Hz频率输入机载图像

交给大模型处理

大模型推理预测下一步的行为

然后将像素映射到200Hz、24个自由度的动作

包括手腕姿势和手指关节角度

最后直接输出结果

整个过程只需要依靠端到端的机器人控制

而无需经过中间过程的编码

更新后的Figure 01还有一个优势

就是接入的OpenAI大模型能理解历史对话

为机器人提供了强大的短期记忆

从而可以理解上下文语义

做出准确的判断和执行

比如demo视频里甄别过杯子盘子应该放回沥水架后

工作人员下达指令

“Can you put them there?”

这其中代指的“them”和“there”是很模糊的

但是预训练模型

通过分析对话历史记录

就能促使Figure 01迅速形成答案

并输出两个动作

将杯子放在沥水架上

以及将盘子放在沥水架上

除此以外

机器人基于视觉运动策略学习到的行为

执行更加快速、反应更加灵敏

相比之下

有些行为想要提前手动指定是很难的

比如在任何位置操纵一个可变形的袋子

同时

一个整体的全身控制器能确保Figure 01保持平衡

时刻处于安全稳定的动态中

除了人工智能加持外

Figure 01还垂直整合了由专业工程师设计的所有系统

包括电机、固件、热力学组件、电子设备、中间件操作系统、电池系统、动作传感器、机械和结构等等

根据阿德科克的透露，在成本方面

一个人形机器人大约有1000个零件

重量大约150磅，相当于68公斤

而电动汽车可能有约1万个零件

重达4000-5000磅

相当于1800-2250公斤

因此，长期来看

人形机器人的成本有望低于廉价电动汽车

这取决于执行器、电机组件、传感器的成本及计算成本

对于这次更新，网友们反应极度热烈

有人说

能够做出一个能帮你刷碗打扫屋子的智能机器人

Figure AI已经赢麻了

还有人已经想象到了商业化适用场景

认为Figure机器人似乎可以成为盲人群体的向导

更有网友不留情面地调侃波士顿动力

应该让实验室给机器人研究点新舞步了

甚至有网友感叹

和Figure 01机器人对视8秒会不会被暴揍

13天前

Figure AI的最新估值还是26亿美元

而今两周过去，估值应该是多少？

有网友回答到，不可估量

Figure AI

我们再来介绍一下Figure AI这家最近硅谷备受关注的创业新星

公开资料显示

机器人公司Figure成立于2022年

公司成立之初就瞄准了通用人形机器人领域

创始人布雷特·阿德科克Brett Adcock是一位连续创业者

已经创办过7家公司

其中一家以27亿美元的估值上市

一家被1.1亿美元的价格收购

首席技术官杰里·普拉特Jerry Pratt是MIT研究员

一直在机器人领域工作

机器人控制主管由前波士顿动力/苹果工程师迈克尔·罗斯Michael Rose担任

AI团队负责人科里·林奇Corey Lynch则是前Google Deepmind的研究员

融资

截止目前，公司一共获得过三次融资

分别在2023年4月获得Aliya Capital Partners等10家投资者的7000万美元A轮融资

当年7月再次获得Big Sky Partners和Intel Capital的900万美元融资

两周前

Figure则宣布完成了6.75亿美元的B轮大额融资

投资人包括亚马逊创始人贝索斯

以及微软、英伟达、OpenAI等等

当前，公司估值已飙升至26亿美元

而获得融资后的Figure

“进化”速度也是出奇的快

今年1月

Figure 01通过端到端神经网络

仅用10小时训练就掌握了制作咖啡的技能

引得众多网友感叹

而一个月后，Figure 01已经学会了

搬运箱子并运送至传送带的新技能

尽管速度仅为人类的 16.7%。

宏大蓝图

在Figure公司的官网上

阿德科克Adcock阐述了他的宏大蓝图

上面写到

Figure旨在研发出能对人类生活产生积极影响、为后代创造更美好生活环境的通用型人形机器人

这类机器人有望消除那些既危险又不受欢迎的工作

从而让我们拥有更加幸福、更有价值的生活

他同时也不忘强调

达成这一愿景需要数十年的努力

并且组建一支矢志不渝追求这一使命的顶尖团队

投入数十亿美元的资金

以及通过工程技术创新来实现大规模的市场影响力

不过当前面临的风险极高

成功的可能性相对较低

在商业化层面

Figure与宝马制造公司签订了商业协议

将AI和机器人技术融入汽车生产线

并部署在宝马位于南卡罗来纳州斯巴达堡的制造工厂

更重要的是

OpenAI同时公开了与Figure更进一步合作的计划

将多模态大模型的能力扩展到机器人的感知、推理和交互上

开发能够取代人类进行体力劳动的人形机器人

其实

OpenAI之前也曾想自己搞机器人

但是后来在2021年宣布无限期终止对机器人领域的探索

原因是缺乏训练机器人使用人工智能移动和推理所需的数据

研发受阻

但是显然

OpenAI对这个领域的关注仍在继续

除了砸钱并与Figure合作

在2023年3月

OpenAI还投资了来自挪威的机器人制造商1X Technologies

无独有偶

1X Technologies的技术方向

也是端到端的神经网络对于机器人的控制

在OpenAI的技术支持下

Figure无疑将给包括特斯拉、亚马逊和众多初创企业在内的竞争对手

带来压力

与此同时

这个赛道仍然在不断地涌入新玩家

比方说本周刚刚成立的Physical Intelligence

以及众多开发者熟悉的Hugging Face公司

前一段时间

英伟达创始人黄仁勋也曾表示

具身智能将引领下一波人工智能浪潮

英伟达内部在今年2月份

就由英伟达高级研究科学家Jim Fan携手组建了一支研究小组

名为GEAR

全称是Generalist Embodied Agent Research

专注于通用具身智能的研究

现在有了大模型的通用能力

很多人说闭上眼

已经可以想象出Figure 01在自己身边工作的情景了

机器人将不再是实验室里可看不可得的观赏品

真正的具身智能也许比我们想象的更快到来

机器人专家Eric Jang曾提出他的观点

那就是尽管许多AI研究者认为

通用机器人的普及还需数十年

但是别忘了

ChatGPT的诞生仿佛几乎也就在一夜之间

一年前的今天

OpenAI震撼发布了GPT-4

向世界证明了大模型的强大威力

一年后的今天，我们虽然没等来GPT-5

但是也迎来Figure 01

而等我们未来再回顾的时候

这会是人形机器人的GPT-4时刻吗？

codelyq

关注

22
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
2024年03月15日_Figure01介绍

具体来看这一次Figure 01体现出的炸裂能力有几点1、识别周围环境，准确描述视觉体验视频开头它就说看到桌上的苹果和面前站着的人类2、推理和决策下一步的行动比方说桌子上的盘子和杯子很可能需要放在沥水架上3、将模棱两可的请求翻译成一些与上下文相关的行为比如将对方说的，我饿了有没有吃的转换成“递给这个人一个苹果”的行动4、用语言来解释推理过程比如说道“苹果是这里唯一能吃的”。5、反思自己的记忆然后做出判断也就是在视频最后回顾了全套行为并且基于常识给出了评价这一切又是究竟如何完美实现的呢？
复制链接

扫一扫

专栏目录