视觉问答参考文章
文章平均质量分 92
weixin_42653320
主要做视觉问答方向
展开
-
2021:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
摘要 本文提出一种新的视觉Transformer----Swin Transformer,它可以成为计算机视觉的通用主干。从语言到视觉采用Transformer的挑战来自于这两个领域之间的差异,比如视觉实体的规模变化很大,以及图像中像素比文本中单词的高分辨率。为解决这些差异,我们提出了一个分层Transformer,其表示是由移动窗口计算的。移动的窗口方案将自注意力计算限制在非重叠的局部窗口上,同时允许跨窗口连接,从而提高了效率。这种层次结构具有在不同尺度上建模的灵活性,并且对图像大小具有...原创 2022-03-07 11:26:09 · 3231 阅读 · 0 评论 -
2020:UNITER: Universal Image_Text Representation Learning
摘要 本文引入UNITER,一种通用的图像-文本表示,从四个图像-文本数据集(COCO, Visual Genome, Conceptual Caption, and SBU Captions)的大规模预训练学习,通过联合多模态嵌入为下游V+L任务提供动力。我们设计四个预训练任务:掩码语言建模MLM,掩码区域建模MRM,图像-文本匹配ITM,和单词-区域对齐WRA。与之前将联合随机掩码应用到这两个模态的工作不同,我们在预训练任务中使用条件掩码(如,掩码语言/区域建模以对图像/文本的完全观察...原创 2022-03-05 13:51:29 · 2533 阅读 · 0 评论 -
2021: ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
摘要 现有的VLP方法严重依赖图像特征提取过程,大多包含区域监督(如目标检测)和卷积的结构(如ResNet)。尽管在文献中忽略,但我们发现有两个问题:1)效率/速度,仅仅提取特征就比多模态交互步骤需要更多的计算;2)表达能力,因为它是视觉嵌入器及其预定义的视觉词汇的表达能力上限。本文,我们提出一个最小的VLP模型--视觉和语言Transformer(ViLT),将视觉输入的处理大大简化为与处理文本输入相同的无卷积方式。我们证明了ViLT比以前的VLP模型快几十倍,且具有竞争力或更好的下游任...原创 2022-02-24 16:12:55 · 4006 阅读 · 0 评论 -
2021: E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning
摘要 大多现有的预训练方法主要采用两阶段训练过程,首先利用一个预训练好的目标检测器来提取基于区域的视觉特征,然后连接图像表示和文本嵌入作为Transformer的输入用于训练。然而,这些方法面临使用特定对象检测器的特定任务的视觉表示来实现通用的跨模态理解,以及两阶段管道的计算效率低下的问题。 本文,我们提出第一个端到端的视觉-语言预训练好的用于V+L理解和生成的模型,命名为E2E-VLP,我们建立了一个统一的Transformer框架来共同学习视觉表示,以及图像和文本之间...原创 2022-02-17 23:56:31 · 1389 阅读 · 0 评论 -
2022: BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and
摘要 大多现有的视觉语言预训练好的模型只善于基于理解的任务或基于生成的任务,而且,性能的提高很大程度上是通过扩大来自web上收集的有噪声的图像-文本对的数据集,这是一个次优的监督来源。本文,提出BLIP,一种新的VLP框架,可以灵活地转换到视觉-语言理解和生成任务。BLIP通过引导字幕,有效地利用了有噪声的web数据,其中字幕器生成合成字幕,过滤器去除有噪声的字幕。我们在广泛的视觉语言任务上实现了最先进的结果,如图像-文本检索、图像标注和VQA。BLIP能以零样本的方式直接转移到视频-语言...原创 2022-02-15 01:39:59 · 4062 阅读 · 0 评论 -
2021: ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge
摘要 视觉和语言预训练的目的是从大量图像-文本对中学习通用的多模态表示,虽然人们已经提出了各种成功的尝试,学习图像-文本对间的细粒度语义对齐在这些方法中起着关键作用。然而,大多数VLP方法没有充分利用图像-文本对中的内在知识,这限制了学习的对齐的有效性,并进一步限制了这些模型的表现。我们引入一种新的VLP方法,称为ROSITA,它将跨模态和模态间的知识集成在一个统一的场景图中,以增强语义对齐。具体地,我们引入一种新的结构化的知识掩码(SKM)策略,使用场景图结构作为一种先验来执行掩码语言(...原创 2021-12-16 11:13:57 · 662 阅读 · 0 评论 -
2021:MDETR-Modulated Detection for End-to-end Multi-Modal Understanding
摘要 多模态推理依赖于一个预训练过的对象检测器来从图像中提取感兴趣的区域,然而,这个关键的模块通常作为一个黑箱,在对象和属性的固定词汇表上进行训练, 独立于下游任务。这使得捕获自由形式文本表达的视觉概念的长尾具有挑战性。本文中,我们提出MDETR,一种端到端的可调节的检测器,它可以检测基于原始文本查询的图像中的对象,如标题或一个问题。我们使用一个基于Transformer的...原创 2021-12-01 14:54:34 · 607 阅读 · 0 评论 -
2021:How Much Can CLIP Benefit Vision-and-Language Tasks?
摘要 大多现有的视觉和语言模型依赖预训练过的视觉编码器,使用一组相对较小的人工注释的数据来感知视觉世界,然而,我们观察到,大规模的预训练通常得到更好的泛化性能,如,CLIP(对比语言-图像预训练),在大量的图像标注对上训练,在各种视觉任务上显示出强大的零样本性能。为进一步研究CLIP带来的优势,我们建议在两种典型的场景下,在各种视觉和语言模型上使用CLIP作为视觉编码器:(1)将CLIP插入到特定于任务的微调中;(2)将CLIP与V&L预训练相结合,并转移到下游任务中。发现,CLI...原创 2021-11-09 18:21:27 · 3522 阅读 · 0 评论 -
2019:Fusion of Detected Objects in Text for Visual Question Answering
摘要 为了推进多模态上下文的模型,我们引入了一个简单但强大的结合视觉和自然语言的数据神经架构。“文本Transformer中的边界框”(B2T2)还利用简单统一的体系结构中的引用信息绑定词到图像的部分。B2T2在视觉常识推理基准上非常有效,与发布的基线相比降低了25%的错误率,并在公共排行榜上获得了最佳性能(截至2019年5月22日)。详细的消融分析表明,早期将视觉特征整合到文本分析中是实现新体系结构有效性的关键。一、介绍 不同的上下文概念导致了对下游NLP任务的不同...原创 2021-11-08 19:03:39 · 1674 阅读 · 0 评论 -
2020:Oscar:Object-Semantics Aligned Pre-training for Vision-Language Tasks
摘要原创 2021-11-06 18:09:17 · 865 阅读 · 0 评论 -
2021:VinVL: Revisiting Visual Representations in Vision-Language Models
摘要 本文详细研究了视觉语言(VL)任务的视觉表示的改进,并开发一种改进的对象检测模型,以提供图像的对象为中心的表示。与最广泛使用的bottom-up和top-down模型相比,新的模型更大,为VL任务设计的更好,在更大的训练语料库(结合多个公共注释的对象检测数据集)上预训练,因此,它可以生成更丰富的视觉对象和概念集合的表示。以前的VL研究主要关注改善视觉-语言融合模型,而不影响对象检测模型的改进,但我们发现在VL模型中视觉特征非常重要。在我们的实验中,我们将新的对象检测模型输入到一个基于...原创 2021-11-05 18:25:08 · 1141 阅读 · 0 评论 -
2018 BERT:Pre-training of Deep Bidirectional Transformers forLanguage Understanding
摘要 我们引入一种新的语言表示模型-BERT,代表来自于Transformers的双向编码器表示。与最近的语言表示模型不同(Peters等人,2018a;Radford等人,2018),BERT的设计是从未标签的文本中通过联合调节所有层的左右上下文来预训练深度双向表示,因此,预训练过的BERT模型可以只需一个额外的输出层来微调,从而为各种任务创建最先进的模型,如问题回答和语言推理,而不需要大量特定于任务的体系结构修改。 BERT概念简单,经验强大,在11个自然语言处理任务...原创 2021-10-08 21:24:09 · 157 阅读 · 0 评论 -
2017 Attention is All You Need 提出Transformer的论文
摘要 主要的序列转换模型是基于复杂的循环或包括一个编码器和一个解码器的卷积神经网络,表现最好的模型也通过一个注意力机制连接编码器和解码器。我们提出一种新的简单的网络结构Transformer,仅基于注意力机制,而完全避免循环和卷积。在两个机器翻译任务上的实验表明,模型在质量上更优越,同时可并行的,需要训练时间更少。我们的模型在WMT2014英-德翻译任务上实现了28.4BLEU,超过现有的最佳结果,包括集成,提高了2BLEU。在WMT2014英-法翻译任务中,我们的模型在8个gpu上训练3...原创 2021-10-08 17:04:37 · 204 阅读 · 0 评论 -
2019 VisualBERT: a Simple and Performant Baseline for Vision and Language
摘要 我们提出VisualBERT,一种建模广泛视觉和语言任务的简单和灵活的框架。VisualBERT包含一些Transformer层的堆叠,这些层隐式的将输入文本和与输入图像相关的区域与自注意力对齐。我们进一步提出了两个基于视觉的语言模型目标来预训练图像标题数据的VisualBERT。在VQA、VCR、NLVR、和Flickr30K这四个视觉和语言任务上的实验表明,VisualBERT优于先进模型,且简单得多。进一步的分析表明,VisualBERT可以在没有任何显式监督的情况下将语言元素...原创 2021-10-12 20:55:44 · 1579 阅读 · 0 评论