视觉问答
文章平均质量分 92
weixin_42653320
主要做视觉问答方向
展开
-
2022VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts
视觉-语言(VL)预训练从大规模的图像-文本对中学习通用的跨模态表示。以往的模型通常采用图像-文本匹配、图像-文本对比学习、掩码区域分类/特征回归、单词-区域/补丁对齐和掩码语言建模等方法来对视觉和语言信息进行聚合和对齐,然后,预训练好的模型可以直接对下游的视觉-语言任务进行微调,如VL检索和分类(视觉问答、视觉推理等)。两种主流体系结构在以前的工作中被广泛使用。CLIP和ALIGN采用双编码器架构,分别编码图像和文本,模态交互作用是由图像和文本特征向量的余弦相似度来处理的。...原创 2022-08-13 18:33:03 · 1596 阅读 · 0 评论 -
2022CoCa: Contrastive Captioners are Image-Text Fountion Models
探索大规模预训练基础模型对计算机视觉具有重要意义,因为这些模型可以迅速地转移到许多下游任务。本文提出对比标注器(CoCa),一种极简的设计,预训练一个图像-文本编码器-解码器模型,并结合对比损失和标注损失,从而包含从对比方法如CLIP和生成方法如SimVLM的模型能力。与所有解码器层都处理编码器输出的标准编码-解码器transformer相比,CoCa在解码器的前半部分忽略交叉注意力来编码单模态文本表示,并将剩余的解码器层交叉处理图像编码器进行多模态图像-文本表示。我们在单模态图像和文本嵌入间应用对比损失,原创 2022-07-03 14:18:37 · 1204 阅读 · 1 评论 -
2022 Declaration-based Prompt Tuning for Visual Question Answering
摘要 近年来,预训练然后微调的范式在广泛的跨模态任务中取得了巨大的成功,如视觉问答,其中一个视觉-语言模型首先通过自监督任务目标优化,如掩码语言建模(MLM)和图像-文本匹配(ITM),然后通过一个全新的目标函数微调以适应下游任务,如答案预测。然而,目标形式的不一致性不仅严重限制预训练好的VL模型对下游任务的泛化,也需要大量的标签数据用于微调。为减轻这一问题,我们提出一种创新的VL微调范式(称为基于声明的促进微调,缩写为DPT),利用预训练目标对下游VQA的模型进行微调,提高了预训练好的模...原创 2022-05-11 15:45:15 · 728 阅读 · 0 评论 -
2021:Answer Questions with Right Image Regions: A Visual Attention Regularization Approach
摘要 视觉问答中的视觉注意力目标是定位与答案预测的正确图像区域,然而,最近研究表明,视觉注意力强调的图像区域与给定的问题和答案经常不相关,导致模型不能正确的进行视觉推理。为解决此问题,现有方法大多将视觉注意力的权重与人类的注意力对齐,然而,收集人类数据是费力且昂贵的。本文设计一种新的视觉注意力正则化方法--AttReg,以更好地视觉接地。具体地,AttReg首先识别对回答问题至关重要的但被主干模型意外忽视的图像区域(即分配较低的注意力权重),然后利用一个掩码引导的学习方案,来正则化视觉注意...原创 2021-10-29 20:58:03 · 358 阅读 · 0 评论 -
2018 BERT:Pre-training of Deep Bidirectional Transformers forLanguage Understanding
摘要 我们引入一种新的语言表示模型-BERT,代表来自于Transformers的双向编码器表示。与最近的语言表示模型不同(Peters等人,2018a;Radford等人,2018),BERT的设计是从未标签的文本中通过联合调节所有层的左右上下文来预训练深度双向表示,因此,预训练过的BERT模型可以只需一个额外的输出层来微调,从而为各种任务创建最先进的模型,如问题回答和语言推理,而不需要大量特定于任务的体系结构修改。 BERT概念简单,经验强大,在11个自然语言处理任务...原创 2021-10-08 21:24:09 · 157 阅读 · 0 评论 -
2017 Attention is All You Need 提出Transformer的论文
摘要 主要的序列转换模型是基于复杂的循环或包括一个编码器和一个解码器的卷积神经网络,表现最好的模型也通过一个注意力机制连接编码器和解码器。我们提出一种新的简单的网络结构Transformer,仅基于注意力机制,而完全避免循环和卷积。在两个机器翻译任务上的实验表明,模型在质量上更优越,同时可并行的,需要训练时间更少。我们的模型在WMT2014英-德翻译任务上实现了28.4BLEU,超过现有的最佳结果,包括集成,提高了2BLEU。在WMT2014英-法翻译任务中,我们的模型在8个gpu上训练3...原创 2021-10-08 17:04:37 · 204 阅读 · 0 评论 -
2021Point and ask:Incorporating Pointing into Visual Question Answering
摘要 为更好模拟现实世界,人们探索了多种VQA扩展设置:不同的问题formulation、改变训练和测试分布、在对话中的对话一致性,以及基于解释的回答。在这项工作中,我们通过考虑包含空间参考点在内的视觉问题来进一步扩展这个空间。指向是人类几乎普遍的手势,现实世界的VQA可能针对目标区域的手势。 具体来说,(1)我们引入并激励点-输入问题作为VQA的扩展;(2)在这个空间中定义三个新的问题类,(3)对每个类引入一个基准数据集和一系列模型设计来处理独特的挑战。与以前的工作有两...原创 2021-09-28 09:43:44 · 176 阅读 · 0 评论 -
2021:An Improved Attention for Visual Question Answering
摘要 注意力捕获模态内和模态间的依赖关系,可能已经成为解决视觉问答的最广泛使用的机制。本文中,我们提出一种改善的基于注意力的结构,我们在编码器-解码器框架中加入一个Attention on Attention(AoA)模块,能够决定注意力结果和查询之间的关系,注意力模块为每个查询生成加权平均值。另一方面,AoA模块首先利用注意力结果和当前上下文生成一个信息向量和一个注意力门,然后添加另一个注意力通过将两者相乘来生成最终参与的信息。我们也提出了多模态融合模块来结合视觉和文本信息,融合模块的目...原创 2021-09-22 20:44:12 · 434 阅读 · 0 评论 -
2018:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
摘要 本文中,我们提出一种结合自下而上和自上而下的注意力机制,能够在对象和其它显著图像区域的层级上计算注意力。在我们的方法中,自下而上的机制(基于Faster R-CNN)提出图像区域,每个区域都有一个相关的特征向量,而自上而下的机制决定了特征权重。将此方法应用到VQA上,获得2017的VQA挑战中的第一名。一、介绍 本文中,我们将由非视觉或特定任务情境驱动的注意力机制成为“top-down”,将视觉反馈注意力机制成为“bottom-up”。我们提出一个结合...原创 2021-09-18 11:12:30 · 839 阅读 · 0 评论 -
2019:Answer Them All! Toward Universal Visual Question Answering Models
摘要 视觉问题回答(VQA)研究分为两个阵营:第一个关注需要自然图像理解的VQA数据集,第二个关注测试推理的合成数据集。一个好的VQA算法应该同时能够实现,但只有少数VQA算法用这种方法进行测试。我们比较了在覆盖这两个领域的8个VQA数据集上的五种最先进的VQA算法,为了使比较公平,所有的模型都尽可能地标准化了,例如,它们使用相同的视觉特征、答案词汇等。我们发现这些方法并不能推广到这两个领域。为了解决这个问题,我们提出了一种新的VQA算法,它可以在这两个领域上竞争或超过最先进的算法。一...原创 2021-09-17 10:22:41 · 289 阅读 · 0 评论 -
2021:Improved RAMEN: Towards Domain Generalization for Visual Question Answering
摘要 REMAN模型通过在两种主要VQA数据集上获得最好的分数来实现领域泛化。本研究对RAMEN结构中的早/晚融合模块和聚合模块提供两种主要改善,以进一步增强领域泛化。融合模块中引入基于融合策略的向量操作,聚合模块引入transformer结构。实验结果分析了两种改善对领域泛化的有效性。一、介绍 VQA中数据集分为两种:一种回答关于通过理解自然真实世界图像的对象的问题,另一种使用合成图像测试推理问题。问题在于算法往往关注其中一种,而不能泛化两种。RAMEN模型结构使用...原创 2021-09-17 10:20:46 · 222 阅读 · 0 评论 -
2021:Weakly Supervised Relative Spatial Reasoning for Visual Question Answering
摘要 视觉和语言推理需要感知如对象和行为的视觉概念、理解语义和推理这种模态的相互作用。视觉推理的一个关键方面是空间理解,它涉及到理解对象的相对位置,即隐式地学习场景的几何形状。本工作中,我们评估了V&L模型对这种几何理解的可靠性,通过制定对象的成对相对位置的预测作为一个分类器和一个回归任务。我们的研究结果表明,最先进的基于transformer的V&L模型缺乏足够的能力来完成这项任务,在此基础上,我们设计了两个目标作为三维空间推理(SR)的代理--对象质心估计和相对位置估计...原创 2021-09-14 11:19:46 · 252 阅读 · 0 评论 -
2021:Beyond Question-Based Biases:Assessing Multimodal Shortcut Learning in Visual Question Answeri
摘要 我们介绍了一种视觉问答的评估方法,以更好的诊断shortcut学习的案例,当模型利用虚假的统计规律而不是利用期待的行为来产生正确答案时,就会发生这些情况。在现实世界部署模型之前,需要确定数据集中可能的shortcut方式,并评估它们的使用。VQA的研究社区专门关注基于问题的shortcut方式,例如,一个模型可能通过主要依赖之前的问题条件训练,用“蓝色”回答“天空的颜色是什么”,而很少重视视觉证据。我们更进一步考虑同时涉及问题和图像的多模态shortcut,我们首先通过挖掘单词和视觉...原创 2021-09-09 20:29:35 · 332 阅读 · 0 评论 -
2021:Graphhopper: Multi-Hop Scene Graph Reasoning for Visual Question Answering
摘要 视觉问答需要对问题的深度语义和语言理解,以及将其与图像中的对象联系起来的能力,它需要计算机视觉和自然语言处理的多模态推理。我们提出Graphhopper,通过整合知识图推理、计算机视觉和自然语言处理技术来处理任务。具体地,我们的方法是基于场景实体及其语义和空间关系来执行上下文驱动、序列化的推理。第一步,我们获得一个描述图像中物体和它们的属性和相互关系的场景图。随后,训练一个强化学习代理,以多跳方式在提取的场景图上自主导航,以生成推理路径,这是推到答案的基础。在GQA数据集上进行实验,...原创 2021-09-02 22:10:49 · 726 阅读 · 0 评论 -
2021:Greedy Gradient Ensemble for Robust Visual Question Answering
摘要 语言偏见是视觉问答中的一个关键性问题,即经常利用数据集偏见而不是图像信息来做最后的决定,导致模型在域外分布数据的糟糕表现和不充分的视觉解释性。本文提出一种新的去偏框架--Greedy Gradient Ensemble(GGE),结合多个偏见模型以进行去偏见的模型学习。由于贪婪策略,GGE迫使有偏见的模型优先过度拟合有偏见的数据分布,使得基本模型关注于有偏见模型难以解决的例子。实验表明我们的方法更好的利用了视觉信息,并在未使用额外注释的数据集VQA-CP上实现了最先进的表现。一、...原创 2021-09-02 11:53:56 · 659 阅读 · 0 评论 -
2020:MUTANT: A Training Paradigm for Out-of-Distribution Generalizationin Visual Question Answering
摘要 对域外测试样本的评估已经成为泛化的一个重要指标,本文,我们提出MUTANT,一种训练范式,将模型暴露于感知上相似但语义不同的输入中,以改进泛化,如VQA-CP挑战。在这个范式下,模型利用一致性约束的训练目标来理解输入的语义变化对输出的影响。与现有VQA-CP方法不同,MUTANT并不依赖关于训练的性质和测试答案分布的知识。MUTANT在VQA-CP上实现了10.57%的提高,我们的工作为使用语义输入突变为OOTD泛化开辟了途径。一、介绍 每个数据集都包含偏见,归纳...原创 2021-08-09 14:52:48 · 276 阅读 · 0 评论 -
2016Analyzing the Behavior of Visual Question Answering Models
摘要 大多数模型性能大约在60-70%,本文,我们提出系统的方法来分析这些模型的行为,作为识别优缺点和识别最有成果的方向的第一步。我们分析两种模型,一种是有注意力和没有注意力,并显示了这些模型行为的相似性和差异,我们也分析了2016年VQA挑战赛的获奖项目。 我们的分析显示,尽管最近取得了进展,但今天的VQA是“短视的”(往往在足够新的例子中失败),经常“跳到结论”(在听一半的问题后收敛在预测的答案上),和“固执的”(不能根据图像改变它们的答案)。一、介绍 ...原创 2021-07-28 21:31:05 · 126 阅读 · 0 评论 -
2021:AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss∗自适应的边缘余弦损失解决语言先验
摘要 现有的VQA模型都有严重的语言先验问题,然而,尽管现有VQA方法都将VQA视为一个分类任务,但是目前还没有研究从答案特征空间学习的角度解决此问题。因此,我们设计一个自适应的边缘余弦损失以正确区分每个问题类型下的频繁和稀疏答案特征空间,因此,语言模态中的有限制的模式在很大程度上减少了,我们的方法引入的语言先验也将更少。我们将该损失函数应用到基线模型中,并在两个VQA-CP基准上评估有效性,实验结果表明我们的自适应的边缘余弦损失可以极大提高基线模型,平均获得15%的绝对增益,从答案特征空...原创 2021-07-26 09:43:32 · 399 阅读 · 0 评论 -
2019LXMERT:Learning Cross-Modality Encoder Representations from Transformers
摘要 视觉-语言推理不仅需要视觉概念、语言语义的理解,更需要这两个模态的对齐和关系。因此,我们提出LXMERT(从Transformers中学习跨模态编码器表示)框架来学习视觉和语言的连接。在LXMERT中,我们构建了一个大规模的Transformer模型包含三个编码器:一个对象关系编码器、一个语言编码器和一个跨模态编码器。接下来,为了赋予我们模型连接视觉和语言语义的能力,我们通过五种不同的预训练任务(掩码语言建模、掩码对象预测(特征回归和标签分类)、跨模态匹配和图像问答),用大量图像和句...原创 2021-07-23 17:27:49 · 300 阅读 · 0 评论 -
2021:Passage Retrieval for Outside-KnowledgeVisual Question Answering通道检索的外部知识视觉问答
摘要 在这项工作中,我们通过关注外部知识视觉问答的通道检索来解决多模态信息需求。这项任务需要访问外部知识,我们定义为一个大的非结构化通道集合。我们首先用BM25进行稀疏检索,并研究用对象名和图像标注来扩展问题。我们验证了视觉线索的重要性,在稀疏检索中,标注比对象名更有信息量。然后,我们构建了一个双编码的密集检索器,查询编码器是LXMERT,一个多模态预训练transformer。我们进一步表明,密集检索器的性能显著优于使用对象展开的稀疏检索,而且,密集检索与利用人类生成标注的稀疏检索的性能...原创 2021-07-22 18:19:52 · 438 阅读 · 0 评论 -
2021:Zero-shot Visual Question Answering using Knowledge Graphs使用知识图的零次视觉问答
摘要 现在的方法主要采用不同组件的管道方法来学习知识匹配和提取、特征学习等,但是当某些组件性能不佳时,这种管道方法就会受到影响,从而导致错误的传播和整体性能变差。而且,大多现有方法忽视答案偏见问题--即很多答案在训练期间中未出现过。为弥补这些差距,本文提出一种使用知识图谱和基于掩码的学习机制的零镜头VQA算法,以更好融入外部知识,并为F-VQA数据集提出新的基于答案的零镜头VQA分割。实验表明,我们的方法在未见的答案的零镜头VQA中实现最佳性能,同时显著增强了正常VQA任务中现有的端到端模...原创 2021-07-19 15:33:17 · 1269 阅读 · 1 评论 -
CVPR2021:Separating Skills and Concepts for Novel Visual Question Answering将技巧与概念分开的新视觉问答
摘要 推广到分布外的数据一直是VQA的问题,为解决对新问题的推广,我们建议将它们分为“技巧”和"概念","技巧"是视觉任务,如计数和属性识别,被应用到"概念"(如物体和人)中。VQA方法应该能够以新的方式组合"技能"和"概念",无论在训练中如何,但我们证明现有模型在处理新组合方面有很多需要改进。我们提出了一种学习组合"技能"和"概念"的新方法,通过学习基础概念表示并从概念编码中区分出技巧编码,在模型中隐式地分离这两个因素。我们用一种新的对比学习过程来执行这些属性,它不依赖于外部注释,并且可...原创 2021-07-19 09:29:05 · 407 阅读 · 0 评论 -
2021:Check it again:Progressive Visual Question Answering via Visual Entailment通过视觉暗示进行渐进式视觉问答
摘要 虽然复杂的视觉问答模型取得了显著的成功,但它们往往只根据问题和答案的表面关系回答问题。最近已经开发了几种方法来解决语言先验问题,但大多数根据一个最好的输出来预测正确答案,不考虑答案的真实性,此外,他们只探索图像和问题间的相互作用,而不考虑候选答案的语义。本文我们提出一种基于视觉暗示的选择和重排序(SAR)渐进式框架,首先选择与问题或答案相关的候选答案,然后通过视觉暗示重新排序这些候选答案,这个任务验证了图像是否在语义上包含问题和每个候选答案的合成陈述。实现结果显示了我们提出的框架的有...原创 2021-07-15 11:40:53 · 947 阅读 · 3 评论 -
2019Self-Critical Reasoning for Robust Visual Question Answering自我批判式推理的鲁棒视觉问答
摘要 由于强烈的语言先验,视觉问答深度学习系统往往捕获训练数据中表面的统计关系,并且不能对测试数据生成一个不同的问题-答案分布。为解决此问题,我们引入一个自我批判式训练主体,以确保正确答案的视觉解释比其它有竞争力的候选答案更能匹配到最有影响的视觉区域,有影响区域要么是由人类/文本视觉解释决定,要么由问题和答案中的重要单词自动决定的。我们在VQA-CAP数据集上VQA通用任务上评估我们的方法,实现了最先进性能,使用文本解释达到49.5%,使用自动注释区域达到48.5%。代码一、介绍...原创 2021-07-12 11:41:44 · 230 阅读 · 3 评论 -
2021:场景图视觉问答GraphVQA: Language-Guided Graph Neural Networks for Scene Graph Question Answering
摘要 场景图是图像的一种新的图形化表示形式。场景图将目标编码为节点,将目标间的成对关系编码为边。为支持场景图上的视觉问答,我们提出了GraphVQA,一种语言导向的图神经网络框架,将自然语言问题转换为图节点间消息传递的多次迭代。我们探索了GraphVQA框架的设计空间,并讨论多种不同设计选择的权衡。在GQA数据集上大大由于最先进模型。原文代码一、介绍 GraphVQA核心:将问题转换为图节点之间信息传递的多次迭代。 对于问题What is t...原创 2021-06-29 15:39:53 · 1078 阅读 · 0 评论 -
2020:可视化的视觉问答LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular Supervision
摘要 为解决视觉问答中很难为预测过程提供直观、人类可读的形式的问题,我们将视觉问答重新表述为一个完整的答案生成任务,需要模型用自然语言证明其预测是合理的。本文提出了LRTA[Look, Read, Think, Answer],一个透明的视觉问答的神经符号推理框架,像人类一样一步一步解决问题,并在每一步提供人类可读的论证形式。我们在GQA数据集上的实验表明,在完整答案生成任务上,LRTA的性能大大优于最先进的模型(43.1%v.s.28.0%)。我们还通过删除语言线索(属性和关系)来创建一个...原创 2021-06-29 16:41:27 · 508 阅读 · 0 评论 -
2021:多任务预训练的跨模态自注意力的医学视觉问答Cross-Modal Self-Attention with Multi-Task Pre-Training for Medical VQA
摘要 由于缺乏标签的数据,现有的医学视觉问答往往依赖于转移学习获取图像特征表示,使用视觉和语言特征跨模态融合实现与问题相关的答案预测。这两个阶段单独执行,没有考虑预训练特征的跨模态融合的相容性和适用性。因此我们将图像特征预训练重新定义为一个多任务学习范式,迫使它考虑到特定图像理解任务中特征的适用性。此外,我们引入了一种跨模态自注意力模块(CMSA)有选择的捕捉长期的上下文相关性,以更有效的融合视觉和语言特征。实验结果表明该方法由于现有的先进方法。代码一、介绍 医学V...原创 2021-07-01 17:22:44 · 3712 阅读 · 0 评论 -
2021:医学视觉问答的多元模型量化Multiple Meta-modal Quantifying for Medical Visual Question Answering
摘要 转移学习是医学VQA中提取特征和战胜数据限制的重要一步,但现有的大多VQA模型依赖外部数据转移学习,而数据集内的元数据就不能充分利用。本文我们提出一种新的多元模型量化方法,能够有效学习元注释,并利用有意义的特征进行医学VQA任务。该方法通过自动注释增加元数据,处理噪声标签和输出元模型,这位医学VQA任务提供了健壮的特征。在两个公共医学VQA数据集上的实验结果表明,相比于其他最先进的方法,我们的方法取得了更好的精度,并且不需要外部数据训练元模型。原文代码一、介绍 ...原创 2021-07-02 18:14:59 · 1188 阅读 · 0 评论 -
2020REXUP: I REason, I EXtract, I UPdate with Structured Compositional Reasoning for VQA
视觉问答的推理、扩展、更新结构化的组合推理原文代码摘要 视觉问答不仅需要图像和问题的语义理解,还需要对一步步推理的感知,才能得到正确答案。目前为止,成功的VQA大多尝试关注一个方面,要么关注视觉像素特征和词特征的相互作用,要么关注回答关于图像的问题的推理步骤。本文提出一个具有明确视觉结构化的文本信息的深度推理VQA模型(REXUP-REason、EXtract和UPdate),它在捕捉一步步的推理过程和检测逼真图像中复杂的对象关系方面表现良好。REXUP包含两个分支,面向图像对...原创 2021-07-10 21:04:19 · 156 阅读 · 0 评论 -
CVPR2021:Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules
使用胶囊的弱监督基础视觉问答摘要 VQA任务的接地问题最近得到了越来越多的关注,大多尝试使用预训练的目标检测器解决此问题,然而,预训练检测器需要边界框注释来检测词汇表中相关的对象,这对实际大规模应用可能是不可行的。本文关注一个更轻松的设置:通过对VQA任务的训练,以弱监督的方式接地相关实体。我们提出一个视觉胶囊模块,一种基于查询胶囊特征的选择模块,允许模型关注与视觉信息相关的文本线索的区域。我们表明了在VQA系统集成这种胶囊模块可显著提高弱监督接地任务上的性能。我们展示了我们的方法...原创 2021-07-07 09:17:31 · 525 阅读 · 1 评论