活动报名:复杂环境下控制机器人,揭秘GPT-4V在视觉和语言规划中的强大力量...

302651f4bf50b941e1f689023b5a750b.png

报告主题:揭秘GPT-4V在机器人视觉-语言规划中的强大力量

报告日期:12月22日(周五)11:00-12:00

f6fcbae2c377260671d527563c1944ad.gif

主题简介:

ViLa 全称是 Robotic Vision-Language Planning,它利用 GPT-4V 在视觉和语言两个模态上做联合推理的能力,把抽象的语言指令分解为一系列可执行的步骤。ViLa 最让人惊喜的是它展现出对物理世界中常识的理解,而这是很多之前基于大语言模型(LLM)的机器人任务规划算法所欠缺的。

在此次演讲中,我们将分享如何赋予机器人根据物理世界做任务规划的能力。最近的很多研究表明,大型语言模型(LLMs)具有对机器人任务非常有用的知识,尤其是在推理和规划方面。然而,LLMs缺乏物理世界的grounding,同时LLMs也依赖于外部affordance模型来感知环境信息,并且这些affordance模型不能与LLMs共同进行推理。

我们认为,任务规划器应该是一个统一的多模态系统。为此,我们介绍了机器人视觉-语言规划算法(ViLa),这是一种新颖的长程机器人规划方法,它利用视觉-语言模型(VLMs)生成一系列可操作的步骤。ViLa直接将感知数据整合到其推理和规划过程中,使其能够深刻理解视觉世界中的常识知识,包括空间布局和对象属性。

它还支持灵活的多模态目标定义,并自然地结合视觉反馈。我们在真实机器人和模拟环境中进行的广泛评估表明,ViLa相比现在基于LLM的任务规划算法具有明显的优势,并在众多的开放世界操纵任务中取得很好的表现。

论文地址:https://arxiv.org/pdf/2311.17842.pdf

论文主页:https://robot-vila.github.io/

论文视频:https://www.youtube.com/watch?v=t8pPZ46xtuc

报告嘉宾:

胡英东,清华大学交叉信息研究院三年级博士生,导师为高阳教授。在此之前,他在北京邮电大学获得智能科学与技术学士学位。他的研究兴趣主要包括计算机视觉,强化学习,具身智能和机器人学习。目前专注于利用基础模型中的先验知识,构建能在开放世界泛化的通用机器人。他在ECCV,ICML,CoRL等多个机器学习和机器人会议上发表论文,担任ICLR,CVPR等国际学术会议审稿人。

林凡淇,清华大学计算机系大四本科生,未来将在清华大学交叉信息研究院高阳教授组攻读博士学位。他的研究兴趣主要包括具身人工智能和机器人。他专注于将大模型的先验知识融合到机器人任务中,帮助机器人完成日常生活中的复杂任务;同时他希望利用已有的机器人算法、视觉语言大模型,探索机器人落地的可能性。

扫描下方二维码

370a322691ea4e5e3b43fc909b4db897.png

或点击「阅读原文」报名

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值