近几年极为热门的研究方向视觉语言导航(Vision-and-Language Navigation,VLN)发展迅速。
今天的分享的ACL 2022论文是对视觉语言导航领域做了一个系统的综述,回顾了VLN的任务、数据集、评测机制和方法等,并对未来方向做出了展望。
本期AI Drive,我们邀请到加州大学圣克鲁兹分校的在读博士生-古静,为大家在线解读其发表在ACL 2022的最新研究成果。
古静,加州大学圣克鲁兹分校的在读博士生,加州大学戴维斯分校获得计算机硕士学位。研究方向包括Natural Language Processing和Embodied AI,论文发表于ACL、EMNLP、AAAI等人工智能顶级会议,并长期担任相关会议审稿人。担任亚马逊正在进行的SimBot比赛(全球十只队伍)入选队伍SlugJarvis的队长。暑假进入谷歌研究院实习,进行Embodied AI相关的研究。
本次分享的具体内容有(关注“数据实战派”,按指示回复关键词可获得本文ppt,文末“阅读原文”可看直播回放):
1、研究背景
2、VLN任务定义
3、VLN数据集
4、VLN方法
5、VLN评估
6、VLN未来发展
论文:https://arxiv.org/abs/2203.12667
Github:https://github.com/eric-ai-lab/awesome-vision-language-navigation
一、研究背景
如果想要建造一个真正可以在实际生活中利用起来的robot,在我们人类理想中它应该可以使用自然语言来和人沟通,而不是说只能接受一些机器语言指令。
最近,像BERT、GPT这些大模型在NLP领域的新发展,让大家渐渐意识到,可以把自然语言和传统的Vision Navigation融合到一起。
在介绍VLN Task之前,我们先简述这样Robot有什么样的好处。
首先,它可以极大程度上让人无需再做重复性的日常任务,也无需做危险的任务。例如说,在家里可以让机器人帮我们从厨房里拿一个苹果,或者帮我们做饭。机器人可以把实时画面传送给我们,然后我们可以使用自然语言告诉机器人,接下来应该执行什么任务。
其次,VLN在理论研究方面也很有价值,它可以探索究竟什么是具身型人工智能,并从这个方向来探索AGI(Artificial General Intelligence)的可能性,因为它将vision、text和action这三种模态融合到一起,并且可以实际运用到生活当中。
一个成功VLN的agent至少需要理解这些模态,并且可以做出切实有效的action。
在介绍VLN的具体数据集和最新提出来的一些方法之前,我们可以先思考两个问题:
第一,什么才算是一个真正智能的具身型人工智能?我们认为,它首先需要理解来自不同维度的信息,例如Vision,Text,Audio,Video,甚至一些很抽象的信息,像人类提取出来的Knowledge Base或者Symbolic Language。
第二,那我们作为人工智能方面的研究者,应该怎么做去推进这样强大的智能体的研究呢?
我们认为至少可以从以下几个方面来做:首先要提出合理的Benchmark,这种Benchmark带有真实的Environment来测试建造的Robot或Agent。并且,自然语言的使用必不可少。其次,建造了这些Benchmark之后,就需要进一步提出模型和方法,如何建造相关的VLN agent。VLN agent需要实时接收环境的观测画面,以及接收来自人的指令,进而在环境中迁移以完成任务。
首先,VLN的复杂点之一在于其输入信息特别多,很多强大的模型在NLP(Natural Language Processing)上已经做的特别先进了,但是只有language一个模态。复杂一点的任务例如VQA(Visual Question Answ