Improving Vision-and-Language Navigation with Image-Text Pairs from the Web
关键字:BERT、迁移学习、预训练
文章简介
这篇文章中了今年ECCV(2020),还是spotlight,挺牛X的了。虽然还是吃的transformer的老本(自从出现了transformer,多模态领域就像找到了突破点一样,各种使用transformer,因此也是在各大会议发了不少文章,去年和今年几乎所有的多模态文章都是基于transformer的),但是作者也是找到了一个很好的应用领域,同时也有该应用场景下需要特殊处理的方法,所以仍然是一篇很不错的文章。对于transformer,我会在之后单独写一篇文章聊一聊,毕竟是大热门啊。
应用场景
现在用transformer写一篇文章是很容易中比较好的会议的,最关键的地方在于找到一个适合的场景。简单介绍一下这篇文章的场景。在基于语言导航的系统中,系统需要将文字描述的物体和现实中的视觉物体联系起来,这是需要大量的数据来训练模型才能达到的,但是往往很难收集到相同场景的大量数据集。网络上有很多相关的数据,作者想借鉴BERT模型中预训练的方法,用网络上大量相关的数据预训练模型,然后用少量的运用场景下的数据集微调模型参数,从而使模型达到好的效果。
假设前提
在路径寻找的问题中,有不同的场景假设,在本文中,作者是假设