OpenAI大模型的人形机器人,会听,会说,会决策

OpenAI大模型加持的机器人,Figure 01,凭借OpenAI的生成式AI技术,实现和人实时对话、理解和听从指令等能力,让人不得不感叹:未来10年绝对是一个颠覆的时代。

Figure 官方账号在 X 上表示:“运用 OpenAI 的技术,Figure 01 现在能够进行完整的对话交流。” 他们为机器人赋予了高级视觉和语言智能,让机器人具有理解并立即反应人类互动的能力。

以下是Figure 01 与它的开发者、高级 AI 工程师 Corey Lynch 互动视频,无加速处理,没有任何剪辑,也没有远程控制。

能识别眼前看到的一切

能听从指令,给人递苹果

能判定桌子上的食物和垃圾,并分类整理

OpenAI视觉语言大模型VLM的引入

Corey Lynch在X分享道: “Figure 01机器人能够准确理解周围环境,规划动作,短期记忆能力,并语言解释它的推理过程。”他们将机器人相机捕获的图像和机载麦克风捕获的语音转化为文字,输入到OpenAI预训练的VLM中处理,通过文本转语音的形式传递给人类。

同样的模型,也负责决定在机器人上运行哪些学习的闭环行为来完成给定的命令,将特定的神经网络权重加载到 GPU 上并执行策略。神经网络的训练和推理需要大量的计算资源,尤其是处理复杂的模型和实时数据。

比如,在Figure 的机载摄像头以 10hz 的频率拍摄图像,神经网络以 200hz 输出 24 个自由度动作,这无疑需要大量GPU来支撑神经网络对图像的处理、特征提取和推理过程。

先进GPU算力的支持

由于实时处理多个输入数据并输出结果,对于GPU的并行计算能力要求非常高,高端的GPU能够支撑这种短时间内需要处理大量数据并实时输出结果的应用场景。NVIDIA GPU搭载深度学习和AI任务硬件加速器Tensor Cores和 CUDA Core,能够快速执行矩阵乘法等操作,提供强大的并行处理能力。使得机器人能够在实时环境中快速处理海量数据,并迅速做出决策和行动,大幅度提高机器人的反应速度和执行效率。

同时,NVIDIA GPU强大的通用计算能力,能够支持各种复杂的深度学习算法和神经网络模型,使机器人能够进行复杂的模式识别、自主学习和决策制定。NVIDIA GPU支持将强大的人工智能计算与图像和媒体加速结合在一起,为机器人提供全面的智能计算能力,目前仍然是机器人的首选人工智能芯片。

英智未来BayStone平台,聚焦全球各地区算力运营商的算力资源,可提供搭载RTX系列、HGX1系列等不同规格主流显卡的高性能GPU服务器,按需调度为企业解决高端算力紧缺的问题。

文章来源公众号:英智未来

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

英智未来

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值