视觉理解论文系列(三)VL-BERT: PRE-TRAINING OF GENERIC VISUALLINGUISTIC REPRESENTATIONS

最新推荐文章于 2022-06-18 12:17:27 发布

薛定猫的谔w

最新推荐文章于 2022-06-18 12:17:27 发布

阅读量1.4k

点赞数 1

分类专栏：视觉常识推理文章标签：计算机视觉

本文链接：https://blog.csdn.net/csdn_tclz/article/details/109386354

版权

VL-BERT是微软亚研院提出的一种预训练模型，旨在学习视觉-语言任务的通用表示。模型基于Transformer，接受图像和语言特征作为输入，通过自监督任务学习，适用于多种下游任务，如视觉常识推理、视觉问答和视觉指代理解。相比于ViLBERT和LXMERT，VL-BERT采用统一的模型结构，使图像和文本信息更早、更自由地交互。

摘要由CSDN通过智能技术生成

背景

这是微软亚研院的工作，将纯文本设定的bert扩展到visual-linguistic场景，从预训练到fine-tune，可以用于多个下游任务。

摘要

作者提出了一个可预训练的用于学习视觉-语言任务通用表征的模型VL-BERT，VL-BERT以transformers为主干，可以同时接受V、L特征作为输入。预训练任务使用了包括visual-language数据集Conceptual Captions，纯文本语料数据集BooksCorpus&English Wikipedia。该预训练模型可以微调至大多数下游视觉-语言相关任务中，实验表明VL-BERT在多项任务中都取得了不错的结果。

动机

(1)在视觉或者文本领域，预训练得到通用表示已经在一系列任务上取得显著的成效。在视觉领域，有在ImageNet上预训练过的各类backbone；在自然语言处理任务中，有预训练模型Bert。但是，在V-L任务中经过预训练的通用表征模型仍然匮乏(大部分是任务特定的模型)。
(2)V-L中任务特定的模型的使用，使得它们(模型本身)很难从预训练任务中获得收益(因为预训练任务可能与目标任务大相径庭)。
所以，作者希望学习一个generic的表示，可以把视觉和语言的信息结合并且对齐。

贡献

提出了VL-BERT，一个用于视觉-语言任务的可训练通用表征，Backbone使用Transformer，同时以视觉特征、语言特征作为输入(输入word或者RoI，对应的feature形式分别是wordPiece embedding和fast R-CNN提取的feature

最低0.47元/天解锁文章

薛定猫的谔w

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
视觉理解论文系列(三)VL-BERT: PRE-TRAINING OF GENERIC VISUALLINGUISTIC REPRESENTATIONS

背景这是微软亚研院的工作，将纯文本设定的bert扩展到visual-linguistic场景，从预训练到fine-tune，可以用于多个下游任务。摘要作者提出了一个可预训练的用于学习视觉-语言任务通用表征的模型VL-BERT，VL-BERT以transformers为主干，可以同时接受V、L特征作为输入。预训练任务使用了包括visual-language数据集Conceptual Captions，纯文本语料数据集BooksCorpus&English Wikipedia。该预训练模型可以微调
复制链接

扫一扫

专栏目录