ACL 2022:梳理视觉语言导航的任务、方法和未来方向|AI Drive

在这里插入图片描述

近几年极为热门的研究方向视觉语言导航(Vision-and-Language Navigation,VLN)发展迅速。

今天的分享的ACL 2022论文是对视觉语言导航领域做了一个系统的综述,回顾了VLN的任务、数据集、评测机制和方法等,并对未来方向做出了展望。

本期AI Drive,我们邀请到加州大学圣克鲁兹分校的在读博士生-古静,为大家在线解读其发表在ACL 2022的最新研究成果。

图片

古静,加州大学圣克鲁兹分校的在读博士生,加州大学戴维斯分校获得计算机硕士学位。研究方向包括Natural Language Processing和Embodied AI,论文发表于ACL、EMNLP、AAAI等人工智能顶级会议,并长期担任相关会议审稿人。担任亚马逊正在进行的SimBot比赛(全球十只队伍)入选队伍SlugJarvis的队长。暑假进入谷歌研究院实习,进行Embodied AI相关的研究。

本次分享的具体内容有(关注“数据实战派”,按指示回复关键词可获得本文ppt,文末“阅读原文”可看直播回放):

1、研究背景
2、VLN任务定义
3、VLN数据集
4、VLN方法
5、VLN评估
6、VLN未来发展

论文:https://arxiv.org/abs/2203.12667

Github:https://github.com/eric-ai-lab/awesome-vision-language-navigation

一、研究背景

图片

如果想要建造一个真正可以在实际生活中利用起来的robot,在我们人类理想中它应该可以使用自然语言来和人沟通,而不是说只能接受一些机器语言指令。

最近,像BERT、GPT这些大模型在NLP领域的新发展,让大家渐渐意识到,可以把自然语言和传统的Vision Navigation融合到一起。

在介绍VLN Task之前,我们先简述这样Robot有什么样的好处。

首先,它可以极大程度上让人无需再做重复性的日常任务,也无需做危险的任务。例如说,在家里可以让机器人帮我们从厨房里拿一个苹果,或者帮我们做饭。机器人可以把实时画面传送给我们,然后我们可以使用自然语言告诉机器人,接下来应该执行什么任务。

其次,VLN在理论研究方面也很有价值,它可以探索究竟什么是具身型人工智能,并从这个方向来探索AGI(Artificial General Intelligence)的可能性,因为它将vision、text和action这三种模态融合到一起,并且可以实际运用到生活当中。

一个成功VLN的agent至少需要理解这些模态,并且可以做出切实有效的action。
图片

在介绍VLN的具体数据集和最新提出来的一些方法之前,我们可以先思考两个问题:

第一,什么才算是一个真正智能的具身型人工智能?我们认为,它首先需要理解来自不同维度的信息,例如Vision,Text,Audio,Video,甚至一些很抽象的信息,像人类提取出来的Knowledge Base或者Symbolic Language。

第二,那我们作为人工智能方面的研究者,应该怎么做去推进这样强大的智能体的研究呢?

我们认为至少可以从以下几个方面来做:首先要提出合理的Benchmark,这种Benchmark带有真实的Environment来测试建造的Robot或Agent。并且,自然语言的使用必不可少。其次,建造了这些Benchmark之后,就需要进一步提出模型和方法,如何建造相关的VLN agent。VLN agent需要实时接收环境的观测画面,以及接收来自人的指令,进而在环境中迁移以完成任务。

首先,VLN的复杂点之一在于其输入信息特别多,很多强大的模型在NLP(Natural Language Processing)上已经做的特别先进了,但是只有language一个模态。复杂一点的任务例如VQA(Visual Question Answ

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值