ACL 2022：梳理视觉语言导航的任务、方法和未来方向|AI Drive

最新推荐文章于 2024-10-16 15:50:20 发布

数据实战派

最新推荐文章于 2024-10-16 15:50:20 发布

阅读量1.9k

点赞数 1

文章标签：人工智能 ACL

本文链接：https://blog.csdn.net/shujushizhanpai/article/details/124628730

版权

这篇博客介绍了ACL 2022上关于视觉语言导航（VLN）的研究，包括任务定义、数据集、方法和未来发展方向。VLN旨在使机器人能够理解自然语言指令并在环境中导航，它融合了视觉、语言和行动模态。博客作者古静博士探讨了VLN的重要性和挑战，如多模态信息处理、数据需求以及评估标准。未来的研究方向包括提高模型的世界知识、多样性和泛化能力，以及协作式VLN和模拟到现实的迁移。

摘要由CSDN通过智能技术生成

在这里插入图片描述

近几年极为热门的研究方向视觉语言导航（Vision-and-Language Navigation，VLN）发展迅速。

今天的分享的ACL 2022论文是对视觉语言导航领域做了一个系统的综述，回顾了VLN的任务、数据集、评测机制和方法等，并对未来方向做出了展望。

本期AI Drive，我们邀请到加州大学圣克鲁兹分校的在读博士生-古静，为大家在线解读其发表在ACL 2022的最新研究成果。

古静，加州大学圣克鲁兹分校的在读博士生，加州大学戴维斯分校获得计算机硕士学位。研究方向包括Natural Language Processing和Embodied AI，论文发表于ACL、EMNLP、AAAI等人工智能顶级会议，并长期担任相关会议审稿人。担任亚马逊正在进行的SimBot比赛（全球十只队伍）入选队伍SlugJarvis的队长。暑假进入谷歌研究院实习，进行Embodied AI相关的研究。

本次分享的具体内容有（关注“数据实战派”，按指示回复关键词可获得本文ppt，文末“阅读原文”可看直播回放）：

1、研究背景
2、VLN任务定义
3、VLN数据集
4、VLN方法
5、VLN评估
6、VLN未来发展

论文：https://arxiv.org/abs/2203.12667

Github：https://github.com/eric-ai-lab/awesome-vision-language-navigation

一、研究背景

如果想要建造一个真正可以在实际生活中利用起来的robot，在我们人类理想中它应该可以使用自然语言来和人沟通，而不是说只能接受一些机器语言指令。

最近，像BERT、GPT这些大模型在NLP领域的新发展，让大家渐渐意识到，可以把自然语言和传统的Vision Navigation融合到一起。

在介绍VLN Task之前，我们先简述这样Robot有什么样的好处。

首先，它可以极大程度上让人无需再做重复性的日常任务，也无需做危险的任务。例如说，在家里可以让机器人帮我们从厨房里拿一个苹果，或者帮我们做饭。机器人可以把实时画面传送给我们，然后我们可以使用自然语言告诉机器人，接下来应该执行什么任务。

其次，VLN在理论研究方面也很有价值，它可以探索究竟什么是具身型人工智能，并从这个方向来探索AGI（Artificial General Intelligence）的可能性，因为它将vision、text和action这三种模态融合到一起，并且可以实际运用到生活当中。

一个成功VLN的agent至少需要理解这些模态，并且可以做出切实有效的action。

在介绍VLN的具体数据集和最新提出来的一些方法之前，我们可以先思考两个问题：

第一，什么才算是一个真正智能的具身型人工智能？我们认为，它首先需要理解来自不同维度的信息，例如Vision，Text，Audio，Video，甚至一些很抽象的信息，像人类提取出来的Knowledge Base或者Symbolic Language。

第二，那我们作为人工智能方面的研究者，应该怎么做去推进这样强大的智能体的研究呢？

我们认为至少可以从以下几个方面来做：首先要提出合理的Benchmark，这种Benchmark带有真实的Environment来测试建造的Robot或Agent。并且，自然语言的使用必不可少。其次，建造了这些Benchmark之后，就需要进一步提出模型和方法，如何建造相关的VLN agent。VLN agent需要实时接收环境的观测画面，以及接收来自人的指令，进而在环境中迁移以完成任务。

首先，VLN的复杂点之一在于其输入信息特别多，很多强大的模型在NLP（Natural Language Processing）上已经做的特别先进了，但是只有language一个模态。复杂一点的任务例如VQA（Visual Question Answ