视觉理解论文系列(四)ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Languag

最新推荐文章于 2022-10-05 18:01:42 发布

薛定猫的谔w

最新推荐文章于 2022-10-05 18:01:42 发布

阅读量2.5k

点赞数 1

分类专栏：视觉常识推理文章标签：深度学习自然语言处理

本文链接：https://blog.csdn.net/csdn_tclz/article/details/109448343

版权

摘要

本篇论文的作者来自于佐治亚理工学院、俄勒冈州立大学、Facebook AI 研究院。本文提出ViLBERT(Vision-and-Language BERT)，该模型用来学习任务无关的图像和自然语言联合表征。ViLBERT在BERT的基础上拓展为多模态的双流模型，在各自的流中处理图像和文本输入，这两个流通过Co-attention transformer层进行交互。ViLBERT应用到下游任务时仅需对基础架构进行少量的调整，实验结果表明本文的ViLBERT在4个下游任务中显著优于面向特定任务的最先进模型。ViLBERT代表了一种转折：从将学习视觉和语言之间的基础知识仅作为具体任务的一部分，转向把视觉基础知识(visual grounding)作为一种可预训练和可迁移的能力。

动机

视觉理解任务使用的主要策略是先基于其他大规模任务分别预训练视觉和语言模型，然后将其作为具体任务的一部分基础知识。然而，①这种方案学习到的基础知识并不牢靠，当visiolinguistic data有限或者有偏时(biased)，模型的泛化能力很差。
此外，②在单模态数据上学习的近乎完美的表征，往往忽略了与其他模态之间的联系。比如，即使狗品种分类的视觉表征是完美的，但在下游任务中模型若无法将该视觉表征与形如"小猎犬"或"牧羊人"这样的近似短语进行关联，这种完美的视觉表征也是近乎无用的。

贡献

本文提出的ViLBERT是一个能够从视觉-语言数据集中学习到任务无关的视觉基础知识的联合模型。本文的关键创新点在于提出一种双流机制

最低0.47元/天解锁文章

薛定猫的谔w

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
视觉理解论文系列(四)ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Languag

摘要本篇论文的作者来自于佐治亚理工学院、俄勒冈州立大学、Facebook AI 研究院。本文提出ViLBERT(Vision-and-Language BERT)，该模型用来学习任务无关的图像和自然语言联合表征。ViLBERT在BERT的基础上拓展为多模态的双流模型，在各自的流中处理图像和文本输入，这两个流通过Co-attention transformer层进行交互。ViLBERT应用到下游任务时仅需对基础架构进行少量的调整，实验结果表明本文的ViLBERT在4个下游任务中显著优于面向特定任务的最先进模
复制链接

扫一扫