Robotic Vision-Language Planning (ViLa)

whaosoft143

已于 2023-12-12 13:55:17 修改

阅读量1.8k

点赞数 22

分类专栏：人工智能文章标签：人工智能

于 2023-12-12 13:51:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29788741/article/details/134947591

版权

来自清华大学交叉信息研究院的研究者提出了「ViLa」（全称 Robotic Vision-Language Planning）算法，其能在非常复杂的环境中控制机器人，为机器人提供任务规划。

GPT-4V 已经能帮我们设计网站代码，控制浏览器，这些应用集中在虚拟数字世界中。假如我们把 GPT-4V 带入现实世界，让它作为控制机器人的大脑，会有什么有趣的结果呢？

ViLa 全称是 Robotic Vision-Language Planning，它利用 GPT-4V 在视觉和语言两个模态上做联合推理的能力，把抽象的语言指令分解为一系列可执行的步骤。ViLa 最让人惊喜的是它展现出对物理世界中常识的理解，而这是很多之前基于大语言模型（LLM）的机器人任务规划算法所欠缺的。

比如在下面这个视频中，研究人员让机器人拿出搁板上的漫威模型（钢铁侠）。ViLa 能理解这个场景中物体的复杂空间位置关系，即纸杯和可乐罐挡住了钢铁侠，要拿出钢铁侠，则必须先拿走纸杯和可乐罐。

又比如在下面这个视频中，研究人员让机器人为上美术课的孩子们整理出一个桌面区域。ViLa 能根据这个场景中的剪纸，推断出现在上课所需的工具是剪刀，把其它危险物品，比如螺丝刀和水果刀放入收纳盒中。

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。