weixin_42653320-CSDN博客

原创 2020，XLNet: Generalized Autoregressive Pretraining for Language Understanding

无监督表示学习在NLP领域取得了很大的成功。通常，这些方法首先在大规模的未标记文本语料库上对神经网络进行预训练，然后在下游任务上微调模型或表示。在这种共同的高水平思想下，已经在文献中探索了不同的无监督的训练前目标。其中，自回归(AR)语言建模和自编码(AE)是预训练最成功的两个目标。AR语言建模试图用一个自回归模型[7,27,28]来估计一个文本语料库的概率分布。...

2022-08-31 10:45:57 598 1

原创 2022VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

视觉-语言(VL)预训练从大规模的图像-文本对中学习通用的跨模态表示。以往的模型通常采用图像-文本匹配、图像-文本对比学习、掩码区域分类/特征回归、单词-区域/补丁对齐和掩码语言建模等方法来对视觉和语言信息进行聚合和对齐，然后，预训练好的模型可以直接对下游的视觉-语言任务进行微调，如VL检索和分类(视觉问答、视觉推理等)。两种主流体系结构在以前的工作中被广泛使用。CLIP和ALIGN采用双编码器架构，分别编码图像和文本，模态交互作用是由图像和文本特征向量的余弦相似度来处理的。...

2022-08-13 18:33:03 1658

原创 2022: Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts

大多现有的视觉语言预训练依赖通过对象检测器提取的以对象为中心的特征，并对提取的体征与文本进行细粒度对齐。这些方法对学习多个对象间的关系具有挑战性。为此，我们提出一种新的方法--X-VLM来执行多粒度视觉语言预训练。学习多粒度对齐的关键是在给定相关文本的图像中定位视觉概念，同时将文本与视觉概念对齐，其中对齐是多粒度的。实验结果表示X-VLM有效利用了学习到的多粒度对齐到许多下游的视觉语言任务，并始终由于最先进的方法。现有的学习视觉语言对齐的方法可以分为两种，如图1，大多数检测图像中的对象，并将

2022-07-10 22:36:43 1430

原创 2022：OFA: Unifying Architectures, Tasks, and Modalities through A Simple S2s Learning Framework

本工作中，我们追求一个多模态预训练的统一范式，以打破复杂任务/特定模态定制的结构。我们提出OFA，一个支持任务全面性的任务不可知和模态不可知的框架，OFA在一个简单的序列到序列的学习框架中，统一了一组不同的跨模态和单模态任务，包括图像生成、视觉接地、图像字幕、图像分类、语言建模等。OFA在预训练和微调阶段都遵循基于指令的学习，对下游任务不需要额外的任务特定层。与最近依赖于超大的跨模态数据集的最先进的视觉和语言模型相比，OFA仅在2000万公开可用的图像-文本对上进行了预训练。尽管OFA操作简单，训练数据相对

2022-07-10 09:03:42 1062

原创 2022CoCa: Contrastive Captioners are Image-Text Fountion Models

探索大规模预训练基础模型对计算机视觉具有重要意义，因为这些模型可以迅速地转移到许多下游任务。本文提出对比标注器(CoCa)，一种极简的设计，预训练一个图像-文本编码器-解码器模型，并结合对比损失和标注损失，从而包含从对比方法如CLIP和生成方法如SimVLM的模型能力。与所有解码器层都处理编码器输出的标准编码-解码器transformer相比，CoCa在解码器的前半部分忽略交叉注意力来编码单模态文本表示，并将剩余的解码器层交叉处理图像编码器进行多模态图像-文本表示。我们在单模态图像和文本嵌入间应用对比损失，

2022-07-03 14:18:37 1270 1

原创 2020:VL-BERT: Pre-training of generic visual-linguistic representation

我们引入一种新的可预训练的视觉语言任务的通用表示方法---视觉-语言BERT(VL-BERT)。VL-BERT采用Transformer模型作为主干，将视觉和语言特征作为输入。输入的每个元素要么是输入句子中的一个单词，要么是输入图像中的一个感兴趣区域。它的是设计是为了适合大多数视觉-语言的下游任务。为更好的利用通用表示，我们在大规模的Conceptual Captions数据集和仅文本语料库上预训练。广泛的实验表明，预训练能过呢更好地对齐视觉-语言线索，有利于下游任务。之前的视觉-语言任务是

2022-06-19 11:27:34 704

原创 2021: Seeing out of the box: End-to-end pre-training for vision-language representation learning

我们研究了卷积神经网络(CNN)和视觉语言预训练transformer(VLPT)的联合学习，旨在从数百万个图像-文本对中学习跨模态对齐。最先进的方法提取突出的图像区域，并逐步对齐区域与单词。由于基于区域的视觉特征通常代表图像的一部分，因此现有的视觉语言模型要完全理解成对的自然语言的语义是一项挑战。本文，我们提出SOHO，将整个图像作为输入，并以端到端的方式学习视觉语言表示。SOHO不需要边界框注释，使得推理速度比基于区域的方法快10倍。特别地，SOHO学习通过视觉字典(VD)来提取全面而紧凑的图像特征，从

2022-06-17 09:08:24 317

原创 2019： Unified Vision-Language Pre-training for Image Captioning and VQA

本文提出一个统一的视觉-语言预训练模型，（1）可以用于视觉-语言生成或理解任务的微调；（2）使用一个共享的多层transformer网络编码和解码，与许多编码器和解码器使用单独的模型不同。统一的VLP模型在大量的图像-文本对上进行预训练，使用两个任务进行无监督学习：双向和序列到序列(seq2seq)掩码视觉-语言预测，这两个任务的不同之处仅仅在于预测条件的背景。这是利用共享transformer网络中的特定自注意力掩码来控制的。视觉语言任务在传统上需要繁琐的特定于任务的特征设计和微调。最近一

2022-06-16 14:40:53 793

原创 2022：Transformer Decoders with MultiModal Regularization for Cross-Modal Food Retrieval

摘要近些年跨模态图像-配方检索得到了广泛的关注。我们提出一种新的检索框架，T-Food（用于跨模态食物检索的多模态正则化的Transformer解码器），使用一种新的正则化方案利用模态间的交互作用，在测试时只使用单模态编码器用于高效检索。我们还利用专门的配方编码器捕获配方实体间的内部依赖，并提出一种具有动态边缘的三重损失的变体，以适应任务的难度。最后，我们利用最近的VLP模型的力量用于图像编码器，如CLIP。一、介绍本工作关注配方-图像检索，包括检索给定配方对应的...

2022-05-11 15:53:58 536 1

原创 2022 Declaration-based Prompt Tuning for Visual Question Answering

摘要近年来，预训练然后微调的范式在广泛的跨模态任务中取得了巨大的成功，如视觉问答，其中一个视觉-语言模型首先通过自监督任务目标优化，如掩码语言建模(MLM)和图像-文本匹配(ITM)，然后通过一个全新的目标函数微调以适应下游任务，如答案预测。然而，目标形式的不一致性不仅严重限制预训练好的VL模型对下游任务的泛化，也需要大量的标签数据用于微调。为减轻这一问题，我们提出一种创新的VL微调范式(称为基于声明的促进微调，缩写为DPT)，利用预训练目标对下游VQA的模型进行微调，提高了预训练好的模...

2022-05-11 15:45:15 746

原创 2022: LAVT: Language-Aware Vision Transformer for Referring Image Segmentation

摘要指代图像分割目的是从图像中分割出自然语言表达式指代的对象。我们表明，通过视觉transformer编码器网络中间层的语言和视觉特征的早期融合能够实现更好的跨模态对齐。通过在视觉特征提取编码阶段进行跨模态特征融合，我们可以利用transformer编码器中已被证明的相关建模能力提取有用的多模态上下文。通过这种方式可以获得正确的分割结果以及一个轻量级的掩码预测器。一、介绍图像特征与文本特征的融合策略包括循环交互、跨模态注意力、多模态图推理、语言结构引导的上下文建模...

2022-04-25 16:14:35 5045

原创 2021：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

摘要本文提出一种新的视觉Transformer----Swin Transformer，它可以成为计算机视觉的通用主干。从语言到视觉采用Transformer的挑战来自于这两个领域之间的差异，比如视觉实体的规模变化很大，以及图像中像素比文本中单词的高分辨率。为解决这些差异，我们提出了一个分层Transformer，其表示是由移动窗口计算的。移动的窗口方案将自注意力计算限制在非重叠的局部窗口上，同时允许跨窗口连接，从而提高了效率。这种层次结构具有在不同尺度上建模的灵活性，并且对图像大小具有...

2022-03-07 11:26:09 3259

原创 2020:UNITER: Universal Image_Text Representation Learning

摘要本文引入UNITER，一种通用的图像-文本表示，从四个图像-文本数据集(COCO, Visual Genome, Conceptual Caption, and SBU Captions)的大规模预训练学习，通过联合多模态嵌入为下游V+L任务提供动力。我们设计四个预训练任务：掩码语言建模MLM，掩码区域建模MRM，图像-文本匹配ITM，和单词-区域对齐WRA。与之前将联合随机掩码应用到这两个模态的工作不同，我们在预训练任务中使用条件掩码（如，掩码语言/区域建模以对图像/文本的完全观察...

2022-03-05 13:51:29 2556

原创 2021： ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

摘要现有的VLP方法严重依赖图像特征提取过程，大多包含区域监督（如目标检测）和卷积的结构（如ResNet）。尽管在文献中忽略，但我们发现有两个问题：1）效率/速度，仅仅提取特征就比多模态交互步骤需要更多的计算；2）表达能力，因为它是视觉嵌入器及其预定义的视觉词汇的表达能力上限。本文，我们提出一个最小的VLP模型--视觉和语言Transformer(ViLT)，将视觉输入的处理大大简化为与处理文本输入相同的无卷积方式。我们证明了ViLT比以前的VLP模型快几十倍，且具有竞争力或更好的下游任...

2022-02-24 16:12:55 4138

原创 2021: E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning

摘要大多现有的预训练方法主要采用两阶段训练过程，首先利用一个预训练好的目标检测器来提取基于区域的视觉特征，然后连接图像表示和文本嵌入作为Transformer的输入用于训练。然而，这些方法面临使用特定对象检测器的特定任务的视觉表示来实现通用的跨模态理解，以及两阶段管道的计算效率低下的问题。本文，我们提出第一个端到端的视觉-语言预训练好的用于V+L理解和生成的模型，命名为E2E-VLP，我们建立了一个统一的Transformer框架来共同学习视觉表示，以及图像和文本之间...

2022-02-17 23:56:31 1431

原创 2022: BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and

摘要大多现有的视觉语言预训练好的模型只善于基于理解的任务或基于生成的任务，而且，性能的提高很大程度上是通过扩大来自web上收集的有噪声的图像-文本对的数据集，这是一个次优的监督来源。本文，提出BLIP，一种新的VLP框架，可以灵活地转换到视觉-语言理解和生成任务。BLIP通过引导字幕，有效地利用了有噪声的web数据，其中字幕器生成合成字幕，过滤器去除有噪声的字幕。我们在广泛的视觉语言任务上实现了最先进的结果，如图像-文本检索、图像标注和VQA。BLIP能以零样本的方式直接转移到视频-语言...

2022-02-15 01:39:59 4125

原创 2021: ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge

摘要视觉和语言预训练的目的是从大量图像-文本对中学习通用的多模态表示，虽然人们已经提出了各种成功的尝试，学习图像-文本对间的细粒度语义对齐在这些方法中起着关键作用。然而，大多数VLP方法没有充分利用图像-文本对中的内在知识，这限制了学习的对齐的有效性，并进一步限制了这些模型的表现。我们引入一种新的VLP方法，称为ROSITA，它将跨模态和模态间的知识集成在一个统一的场景图中，以增强语义对齐。具体地，我们引入一种新的结构化的知识掩码（SKM）策略，使用场景图结构作为一种先验来执行掩码语言（...

2021-12-16 11:13:57 732

原创 2021:MDETR-Modulated Detection for End-to-end Multi-Modal Understanding

摘要多模态推理依赖于一个预训练过的对象检测器来从图像中提取感兴趣的区域，然而，这个关键的模块通常作为一个黑箱，在对象和属性的固定词汇表上进行训练，独立于下游任务。这使得捕获自由形式文本表达的视觉概念的长尾具有挑战性。本文中，我们提出MDETR，一种端到端的可调节的检测器，它可以检测基于原始文本查询的图像中的对象，如标题或一个问题。我们使用一个基于Transformer的...

2021-12-01 14:54:34 631

原创 2021:How Much Can CLIP Benefit Vision-and-Language Tasks?

摘要大多现有的视觉和语言模型依赖预训练过的视觉编码器，使用一组相对较小的人工注释的数据来感知视觉世界，然而，我们观察到，大规模的预训练通常得到更好的泛化性能，如，CLIP(对比语言-图像预训练)，在大量的图像标注对上训练，在各种视觉任务上显示出强大的零样本性能。为进一步研究CLIP带来的优势，我们建议在两种典型的场景下，在各种视觉和语言模型上使用CLIP作为视觉编码器：（1）将CLIP插入到特定于任务的微调中；（2）将CLIP与V&L预训练相结合，并转移到下游任务中。发现，CLI...

2021-11-09 18:21:27 3568

原创 2019：Fusion of Detected Objects in Text for Visual Question Answering

摘要为了推进多模态上下文的模型，我们引入了一个简单但强大的结合视觉和自然语言的数据神经架构。“文本Transformer中的边界框”(B2T2)还利用简单统一的体系结构中的引用信息绑定词到图像的部分。B2T2在视觉常识推理基准上非常有效，与发布的基线相比降低了25%的错误率，并在公共排行榜上获得了最佳性能（截至2019年5月22日）。详细的消融分析表明，早期将视觉特征整合到文本分析中是实现新体系结构有效性的关键。一、介绍不同的上下文概念导致了对下游NLP任务的不同...

2021-11-08 19:03:39 1706

原创 2020：Oscar:Object-Semantics Aligned Pre-training for Vision-Language Tasks

摘要

2021-11-06 18:09:17 900

原创 2021：VinVL: Revisiting Visual Representations in Vision-Language Models

摘要本文详细研究了视觉语言（VL）任务的视觉表示的改进，并开发一种改进的对象检测模型，以提供图像的对象为中心的表示。与最广泛使用的bottom-up和top-down模型相比，新的模型更大，为VL任务设计的更好，在更大的训练语料库（结合多个公共注释的对象检测数据集）上预训练，因此，它可以生成更丰富的视觉对象和概念集合的表示。以前的VL研究主要关注改善视觉-语言融合模型，而不影响对象检测模型的改进，但我们发现在VL模型中视觉特征非常重要。在我们的实验中，我们将新的对象检测模型输入到一个基于...

2021-11-05 18:25:08 1226

原创 2021：Answer Questions with Right Image Regions: A Visual Attention Regularization Approach

摘要视觉问答中的视觉注意力目标是定位与答案预测的正确图像区域，然而，最近研究表明，视觉注意力强调的图像区域与给定的问题和答案经常不相关，导致模型不能正确的进行视觉推理。为解决此问题，现有方法大多将视觉注意力的权重与人类的注意力对齐，然而，收集人类数据是费力且昂贵的。本文设计一种新的视觉注意力正则化方法--AttReg，以更好地视觉接地。具体地，AttReg首先识别对回答问题至关重要的但被主干模型意外忽视的图像区域（即分配较低的注意力权重），然后利用一个掩码引导的学习方案，来正则化视觉注意...

2021-10-29 20:58:03 372

原创 2019 VisualBERT: a Simple and Performant Baseline for Vision and Language

摘要我们提出VisualBERT，一种建模广泛视觉和语言任务的简单和灵活的框架。VisualBERT包含一些Transformer层的堆叠，这些层隐式的将输入文本和与输入图像相关的区域与自注意力对齐。我们进一步提出了两个基于视觉的语言模型目标来预训练图像标题数据的VisualBERT。在VQA、VCR、NLVR、和Flickr30K这四个视觉和语言任务上的实验表明，VisualBERT优于先进模型，且简单得多。进一步的分析表明，VisualBERT可以在没有任何显式监督的情况下将语言元素...

2021-10-12 20:55:44 1631

原创 2018 BERT:Pre-training of Deep Bidirectional Transformers forLanguage Understanding

摘要我们引入一种新的语言表示模型-BERT，代表来自于Transformers的双向编码器表示。与最近的语言表示模型不同(Peters等人，2018a；Radford等人，2018)，BERT的设计是从未标签的文本中通过联合调节所有层的左右上下文来预训练深度双向表示，因此，预训练过的BERT模型可以只需一个额外的输出层来微调，从而为各种任务创建最先进的模型，如问题回答和语言推理，而不需要大量特定于任务的体系结构修改。 BERT概念简单，经验强大，在11个自然语言处理任务...

2021-10-08 21:24:09 199

原创 2017 Attention is All You Need 提出Transformer的论文

摘要主要的序列转换模型是基于复杂的循环或包括一个编码器和一个解码器的卷积神经网络，表现最好的模型也通过一个注意力机制连接编码器和解码器。我们提出一种新的简单的网络结构Transformer，仅基于注意力机制，而完全避免循环和卷积。在两个机器翻译任务上的实验表明，模型在质量上更优越，同时可并行的，需要训练时间更少。我们的模型在WMT2014英-德翻译任务上实现了28.4BLEU，超过现有的最佳结果，包括集成，提高了2BLEU。在WMT2014英-法翻译任务中，我们的模型在8个gpu上训练3...

2021-10-08 17:04:37 222

原创 2021Point and ask:Incorporating Pointing into Visual Question Answering

摘要为更好模拟现实世界，人们探索了多种VQA扩展设置：不同的问题formulation、改变训练和测试分布、在对话中的对话一致性，以及基于解释的回答。在这项工作中，我们通过考虑包含空间参考点在内的视觉问题来进一步扩展这个空间。指向是人类几乎普遍的手势，现实世界的VQA可能针对目标区域的手势。具体来说，（1）我们引入并激励点-输入问题作为VQA的扩展；（2）在这个空间中定义三个新的问题类，（3）对每个类引入一个基准数据集和一系列模型设计来处理独特的挑战。与以前的工作有两...

2021-09-28 09:43:44 200

原创 2021：A Thorough Review on Recent Deep Learning Methodologies for Image Captioning

摘要目前对该领域的研究主要集中在基于深度学习的方法，其中注意力机制、深度强化和对抗性学习似乎是本研究课题的前沿。本文回顾了最近的方法，如UpDown，OSCAR，VIVO，Meta Learning和使用条件生成对抗网络的模型。尽管基于GAN的模型实现了最高的分数，但UpDown表示了图像标注的重要基础，OSCAR和VIVO在它们使用寻的对象标注时更有用。1. 介绍在图像标注中起关键作用的技术之一是注意力机制的使用，transformer引入之后，如机器翻译和语言...

2021-09-26 15:25:51 173

原创 2020：MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering

摘要我们提出MMFT-BERT来解决，VQA确保多个输入模态的单个和结合处理。我们的方法受益于分别采用BERT编码并使用一个新的基于transformer的融合模型处理多模态数据。我们的方法将不同模态分为具有相似结构的不同BERT实例，但权重可变。在TVQA中实现了SOTA结果。此外，我们提供了TVQA-visual，一种孤立的诊断子集，严格需要基于人类注释者的判断的视觉模态知识。这组问题帮助我们研究模型行为，以及TVQA不能超过人类表现的挑战。大量实验表明我们方法的有效性和优越性。...

2021-09-24 15:46:46 532

原创 2021:An Improved Attention for Visual Question Answering

摘要注意力捕获模态内和模态间的依赖关系，可能已经成为解决视觉问答的最广泛使用的机制。本文中，我们提出一种改善的基于注意力的结构，我们在编码器-解码器框架中加入一个Attention on Attention(AoA)模块，能够决定注意力结果和查询之间的关系，注意力模块为每个查询生成加权平均值。另一方面，AoA模块首先利用注意力结果和当前上下文生成一个信息向量和一个注意力门，然后添加另一个注意力通过将两者相乘来生成最终参与的信息。我们也提出了多模态融合模块来结合视觉和文本信息，融合模块的目...

2021-09-22 20:44:12 477

原创 2018：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

摘要本文中，我们提出一种结合自下而上和自上而下的注意力机制，能够在对象和其它显著图像区域的层级上计算注意力。在我们的方法中，自下而上的机制(基于Faster R-CNN)提出图像区域，每个区域都有一个相关的特征向量，而自上而下的机制决定了特征权重。将此方法应用到VQA上，获得2017的VQA挑战中的第一名。一、介绍本文中，我们将由非视觉或特定任务情境驱动的注意力机制成为“top-down”，将视觉反馈注意力机制成为“bottom-up”。我们提出一个结合...

2021-09-18 11:12:30 883

原创 2019：Answer Them All! Toward Universal Visual Question Answering Models

摘要视觉问题回答(VQA)研究分为两个阵营：第一个关注需要自然图像理解的VQA数据集，第二个关注测试推理的合成数据集。一个好的VQA算法应该同时能够实现，但只有少数VQA算法用这种方法进行测试。我们比较了在覆盖这两个领域的8个VQA数据集上的五种最先进的VQA算法，为了使比较公平，所有的模型都尽可能地标准化了，例如，它们使用相同的视觉特征、答案词汇等。我们发现这些方法并不能推广到这两个领域。为了解决这个问题，我们提出了一种新的VQA算法，它可以在这两个领域上竞争或超过最先进的算法。一...

2021-09-17 10:22:41 333

原创 2021：Improved RAMEN: Towards Domain Generalization for Visual Question Answering

摘要 REMAN模型通过在两种主要VQA数据集上获得最好的分数来实现领域泛化。本研究对RAMEN结构中的早/晚融合模块和聚合模块提供两种主要改善，以进一步增强领域泛化。融合模块中引入基于融合策略的向量操作，聚合模块引入transformer结构。实验结果分析了两种改善对领域泛化的有效性。一、介绍 VQA中数据集分为两种：一种回答关于通过理解自然真实世界图像的对象的问题，另一种使用合成图像测试推理问题。问题在于算法往往关注其中一种，而不能泛化两种。RAMEN模型结构使用...

2021-09-17 10:20:46 254

原创 2021:Weakly Supervised Relative Spatial Reasoning for Visual Question Answering

摘要视觉和语言推理需要感知如对象和行为的视觉概念、理解语义和推理这种模态的相互作用。视觉推理的一个关键方面是空间理解，它涉及到理解对象的相对位置，即隐式地学习场景的几何形状。本工作中，我们评估了V&L模型对这种几何理解的可靠性，通过制定对象的成对相对位置的预测作为一个分类器和一个回归任务。我们的研究结果表明，最先进的基于transformer的V&L模型缺乏足够的能力来完成这项任务，在此基础上，我们设计了两个目标作为三维空间推理(SR)的代理--对象质心估计和相对位置估计...

2021-09-14 11:19:46 272

原创 2021：Beyond Question-Based Biases:Assessing Multimodal Shortcut Learning in Visual Question Answeri

摘要我们介绍了一种视觉问答的评估方法，以更好的诊断shortcut学习的案例，当模型利用虚假的统计规律而不是利用期待的行为来产生正确答案时，就会发生这些情况。在现实世界部署模型之前，需要确定数据集中可能的shortcut方式，并评估它们的使用。VQA的研究社区专门关注基于问题的shortcut方式，例如，一个模型可能通过主要依赖之前的问题条件训练，用“蓝色”回答“天空的颜色是什么”，而很少重视视觉证据。我们更进一步考虑同时涉及问题和图像的多模态shortcut，我们首先通过挖掘单词和视觉...

2021-09-09 20:29:35 388

原创 2021:Graphhopper: Multi-Hop Scene Graph Reasoning for Visual Question Answering

摘要视觉问答需要对问题的深度语义和语言理解，以及将其与图像中的对象联系起来的能力，它需要计算机视觉和自然语言处理的多模态推理。我们提出Graphhopper，通过整合知识图推理、计算机视觉和自然语言处理技术来处理任务。具体地，我们的方法是基于场景实体及其语义和空间关系来执行上下文驱动、序列化的推理。第一步，我们获得一个描述图像中物体和它们的属性和相互关系的场景图。随后，训练一个强化学习代理，以多跳方式在提取的场景图上自主导航，以生成推理路径，这是推到答案的基础。在GQA数据集上进行实验，...

2021-09-02 22:10:49 761

原创 2021：Greedy Gradient Ensemble for Robust Visual Question Answering

摘要语言偏见是视觉问答中的一个关键性问题，即经常利用数据集偏见而不是图像信息来做最后的决定，导致模型在域外分布数据的糟糕表现和不充分的视觉解释性。本文提出一种新的去偏框架--Greedy Gradient Ensemble(GGE)，结合多个偏见模型以进行去偏见的模型学习。由于贪婪策略，GGE迫使有偏见的模型优先过度拟合有偏见的数据分布，使得基本模型关注于有偏见模型难以解决的例子。实验表明我们的方法更好的利用了视觉信息，并在未使用额外注释的数据集VQA-CP上实现了最先进的表现。一、...

2021-09-02 11:53:56 687

原创 2020：MUTANT: A Training Paradigm for Out-of-Distribution Generalizationin Visual Question Answering

摘要对域外测试样本的评估已经成为泛化的一个重要指标，本文，我们提出MUTANT，一种训练范式，将模型暴露于感知上相似但语义不同的输入中，以改进泛化，如VQA-CP挑战。在这个范式下，模型利用一致性约束的训练目标来理解输入的语义变化对输出的影响。与现有VQA-CP方法不同，MUTANT并不依赖关于训练的性质和测试答案分布的知识。MUTANT在VQA-CP上实现了10.57%的提高，我们的工作为使用语义输入突变为OOTD泛化开辟了途径。一、介绍每个数据集都包含偏见，归纳...

2021-08-09 14:52:48 313

原创 2016Analyzing the Behavior of Visual Question Answering Models

摘要大多数模型性能大约在60-70%，本文，我们提出系统的方法来分析这些模型的行为，作为识别优缺点和识别最有成果的方向的第一步。我们分析两种模型，一种是有注意力和没有注意力，并显示了这些模型行为的相似性和差异，我们也分析了2016年VQA挑战赛的获奖项目。我们的分析显示，尽管最近取得了进展，但今天的VQA是“短视的”(往往在足够新的例子中失败)，经常“跳到结论”(在听一半的问题后收敛在预测的答案上)，和“固执的”(不能根据图像改变它们的答案)。一、介绍 ...

2021-07-28 21:31:05 138

原创 2021：AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss∗自适应的边缘余弦损失解决语言先验

摘要现有的VQA模型都有严重的语言先验问题，然而，尽管现有VQA方法都将VQA视为一个分类任务，但是目前还没有研究从答案特征空间学习的角度解决此问题。因此，我们设计一个自适应的边缘余弦损失以正确区分每个问题类型下的频繁和稀疏答案特征空间，因此，语言模态中的有限制的模式在很大程度上减少了，我们的方法引入的语言先验也将更少。我们将该损失函数应用到基线模型中，并在两个VQA-CP基准上评估有效性，实验结果表明我们的自适应的边缘余弦损失可以极大提高基线模型，平均获得15%的绝对增益，从答案特征空...

2021-07-26 09:43:32 454

空空如也

空空如也