Multimodal——Paper精读笔记：Improving Vision-and-Language Navigation with Image-Text Pairs from the Web

最新推荐文章于 2024-08-22 14:02:52 发布

hust_zhengT

最新推荐文章于 2024-08-22 14:02:52 发布

阅读量577

点赞数 1

文章标签：算法迁移学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hust_zhengT/article/details/107931748

版权

本文研究如何使用Web上的图像-文本对改进视觉-语言导航系统。受BERT启发，作者通过三个阶段的预训练和微调，使模型在有限的特定场景数据上表现良好。实验在Matterport3D数据集的Room-2-Room任务上展示了优越的性能。

摘要由CSDN通过智能技术生成

Improving Vision-and-Language Navigation with Image-Text Pairs from the Web

关键字：BERT、迁移学习、预训练

文章简介

这篇文章中了今年ECCV（2020），还是spotlight，挺牛X的了。虽然还是吃的transformer的老本（自从出现了transformer，多模态领域就像找到了突破点一样，各种使用transformer，因此也是在各大会议发了不少文章，去年和今年几乎所有的多模态文章都是基于transformer的），但是作者也是找到了一个很好的应用领域，同时也有该应用场景下需要特殊处理的方法，所以仍然是一篇很不错的文章。对于transformer，我会在之后单独写一篇文章聊一聊，毕竟是大热门啊。

应用场景

现在用transformer写一篇文章是很容易中比较好的会议的，最关键的地方在于找到一个适合的场景。简单介绍一下这篇文章的场景。在基于语言导航的系统中，系统需要将文字描述的物体和现实中的视觉物体联系起来，这是需要大量的数据来训练模型才能达到的，但是往往很难收集到相同场景的大量数据集。网络上有很多相关的数据，作者想借鉴BERT模型中预训练的方法，用网络上大量相关的数据预训练模型，然后用少量的运用场景下的数据集微调模型参数，从而使模型达到好的效果。

假设前提

在路径寻找的问题中，有不同的场景假设，在本文中，作者是假设

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。