Multimodal——Paper精读笔记:Improving Vision-and-Language Navigation with Image-Text Pairs from the Web

本文研究如何使用Web上的图像-文本对改进视觉-语言导航系统。受BERT启发,作者通过三个阶段的预训练和微调,使模型在有限的特定场景数据上表现良好。实验在Matterport3D数据集的Room-2-Room任务上展示了优越的性能。
摘要由CSDN通过智能技术生成

Improving Vision-and-Language Navigation with Image-Text Pairs from the Web

关键字:BERT、迁移学习、预训练

文章简介

这篇文章中了今年ECCV(2020),还是spotlight,挺牛X的了。虽然还是吃的transformer的老本(自从出现了transformer,多模态领域就像找到了突破点一样,各种使用transformer,因此也是在各大会议发了不少文章,去年和今年几乎所有的多模态文章都是基于transformer的),但是作者也是找到了一个很好的应用领域,同时也有该应用场景下需要特殊处理的方法,所以仍然是一篇很不错的文章。对于transformer,我会在之后单独写一篇文章聊一聊,毕竟是大热门啊。

应用场景

现在用transformer写一篇文章是很容易中比较好的会议的,最关键的地方在于找到一个适合的场景。简单介绍一下这篇文章的场景。在基于语言导航的系统中,系统需要将文字描述的物体和现实中的视觉物体联系起来,这是需要大量的数据来训练模型才能达到的,但是往往很难收集到相同场景的大量数据集。网络上有很多相关的数据,作者想借鉴BERT模型中预训练的方法,用网络上大量相关的数据预训练模型,然后用少量的运用场景下的数据集微调模型参数,从而使模型达到好的效果。

假设前提

在路径寻找的问题中,有不同的场景假设,在本文中,作者是假设

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值