当GPT-4V充当机器人大脑,可能你都没AI会规划

来自清华大学交叉信息研究院的研究者提出了「ViLa」(全称 Robotic Vision-Language Planning)算法,其能在非常复杂的环境中控制机器人,为机器人提供任务规划。

GPT-4V 已经能帮我们设计网站代码,控制浏览器,这些应用集中在虚拟数字世界中。假如我们把 GPT-4V 带入现实世界,让它作为控制机器人的大脑,会有什么有趣的结果呢?

最近,来自清华大学交叉信息研究院的研究者提出「ViLa」算法,实现了让 GPT-4V 走进物理世界中,为机器人操作日常生活物品提供任务规划。

图片

ViLa 全称是 Robotic Vision-Language Planning,它利用 GPT-4V 在视觉和语言两个模态上做联合推理的能力,把抽象的语言指令分解为一系列可执行的步骤。ViLa 最让人惊喜的是它展现出对物理世界中常识的理解,而这是很多之前基于大语言模型(LLM)的机器人任务规划算法所欠缺的。

比如在下面这个视频中,研究人员让机器人拿出搁板上的漫威模型(钢铁侠)。ViLa

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诗者才子酒中仙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值