
Visual Question Answering
文章平均质量分 93
看论文
金克丝、
菜
展开
-
<<计算机视觉NeurIPS>>2022:GLIPv2: Unifying Localization and VL Understanding
建立一个通用的,可以同时处理任务(image classification、object detection和segmentation等等)和任务(VQA和image captioning等等)的在过去一两年广为关注,这需要模型能够有效的统一和任务。然而,这两种任务有很大的区别:localization是仅视觉的任务,需要细粒度的输出(例如,bounding boxes或pixel masks),而VL understanding强调不同模态信息之间的融合。原创 2022-09-30 00:34:31 · 1359 阅读 · 1 评论 -
<<视觉问答NeurIPS>>2022:REVIVE: Regional Visual Representation Matters in Knowledge-Based VQA
虽然在中得到了广泛的研究应用,但在中却鲜有使用,尽管这两种任务都需要依赖视觉信息来输出答案。作者观察到,在目前最先进的 knowledge-based VQA 方法中:1)从整个图像或利用滑动窗口的方式提取视觉特征来检索知识,而忽略了对象区域内部/之间的重要关系;2)最终的预测模型没有很好地利用视觉特征,这在一定程度上是反直觉的。因此,他们只是将检索到的知识和问题融合为一个纯自然语言处理(NLP)任务来预测答案,而在预测答案的时候忽略了视觉信息。在本文中,作者提出了一种基于知识的VQA方法。原创 2022-09-26 18:31:26 · 643 阅读 · 0 评论 -
<<视觉问答AAAI>>2022:Multi-Modal Answer Validation for Knowledge-Based VQA
knowledge-based visual question answering是指模型不仅需要图像的视觉信息和问题的语义信息,还需要图像中的对象所蕴含的外部知识才能够正确的回答问题。这些知识通常以各种形式出现,包括视觉知识、文本知识和常识知识,也可以从各种来源获得,如图像搜索引擎、百科全书文章和概念关系知识库,如图1,每个问题都需要不同类型的外部知识。当前大多数knowledge-based VQA方法遵循两阶段框架,模型首先检索与问题和图像相关的知识,再由一个单独的融合理解模型预测答案。原创 2022-09-25 21:00:43 · 382 阅读 · 0 评论 -
<<视觉问答AAAI>>2022:An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA
(VQA)是指模型不仅需要图像的视觉信息和问题的语义信息,还需要图像中的对象所蕴含的外部知识才能够正确的回答问题,例如模型在回答“图像中涉及到的八大奇迹之一全长是多少?”这一问题时,模型不仅要识别出图像中的八大奇迹之一万里长城,更需要外部知识来回答这个问题。现有的方法首先从外部知识资源库中检索知识,然后对检索到的知识、输入图像和问题进行融合推理,进行答案预测。然而,这种两阶段方法可能会导致不匹配,从而潜在地限制VQA的性能。例如,检索到的知识可能是有噪声的,与问题含义无关;推理过程中。原创 2022-09-15 19:24:18 · 1126 阅读 · 0 评论 -
<<视觉问答IJCAI>>2022:Declaration-based Prompt Tuning for Visual Question Answering
近年来,“预训练+微调”范式在跨模态任务中取得了巨大的成功,例如视觉问答(VQA),首先通过自监督任务(如MLM、ITM和ITC)在大规模图文数据集上训练优化visual-language pre-training模型,再通过添加一个新的特定于任务的目标函数(如answer prediction)进行微调以适应下游任务(如VQA)。然而,预训练任务目标和微调任务目标形式的不一致性。原创 2022-09-14 20:04:18 · 478 阅读 · 0 评论 -
<<多模态预训练—泛读系列(一)>>ViLBERT—(NeurIPS-2019),VL-BERT—(ICLR-2020),VisualBERT—(ACL-2020)
介绍:ViLBERT,一种用于学习图像和自然语言的任务不可知的联合表征的模型,将BERT架构扩展到多模态双流架构,两个独立的分支分别处理视觉和文本输入,co-attention层用以交互图像和文本。在自动收集的大型captions数据集上通过两个预训练任务对模型进行预训练,然后将其迁移到多个视觉和语言下游任务中,视觉问答、视觉常识推理、引用表达式和基于caption的图像检索。......原创 2022-08-01 22:21:22 · 1639 阅读 · 0 评论 -
<<多模态预训练—泛读>>2022:BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Unders
目录问题与方案:一、Introduction二、Related Work2.1、Vision-language Pre-training2.2、Knowledge Distillation2.3、Data Augmentation三、Method3.1. Model Architecture3.2、Pre-training Objectives3.3、CapFilt四、Experiments and Discussions五、Conclusion 视觉语言预训练(VLP)通过对大规模网络上的图像原创 2022-06-30 01:14:46 · 1370 阅读 · 0 评论 -
<<多模态预训练—泛读>>2022:mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connec
目录问题与方案1、Introduction2、Related Work2.1、Vision-Language Pre-training2.2、Skip-connection3、mPLUG3.1、Model Architecture3.2、Cross-modal Skip-connected Network3.3、Pre-training Tasks四、Experiments五、Conclusion 学习VLP模型的一个巨大挑战是在这两种模态之间找到良好的对齐方式,以缩小两者之间的语义差距。先前原创 2022-06-29 16:29:30 · 1395 阅读 · 0 评论 -
<<多模态预训练>>2022:CoCa: Contrastive Captioners are Image-Text Foundation Models
目录Abstract1、Introduction2、Related Work3、Approach3.1、Natural Language Supervision3.2、Contrastive Captioners Pretraining3.3、Contrastive Captioners for Downstream Tasks4、Experiments5、Conclusion 对于视觉和视觉语言问题,已经探索了一些基础的模型: 在这项工作中,我们统一了single-encoder原创 2022-06-24 00:02:18 · 3528 阅读 · 4 评论 -
<<多模态预训练and视频问答>>2022:LAVENDER: Unifying Video-LanguageUnderstanding as Masked Language Modeling
目录Abstract:一、Introduction二、Related Work三、LAVENDER3.1、Model Architecture3.2、Our Unified Framework4、Experiments5、Conclusion and Discussion of Broader Impact 基于transformer的大规模预训练已成为NLP和VL研究的主流。随着image-text预训练的巨大成功,视频语言(VidL)预训练也受到了越来越多的关注。通过在大量视频文本对上对端原创 2022-06-23 11:38:01 · 659 阅读 · 0 评论 -
<<视觉问答IJCAI>>2022:Declaration-based Prompt Tuning for Visual Question Answering
目录摘要:一、介绍二、Related Work2.1、Pre-trained Vision-language Models2.2、Cross-modal Prompt Tuning三、Methodology3.1、PreliminaryPre-training-then-fine-tuning paradigm3.2 Declaration-based Prompt TuningTextual Adaptation via Declaration Generat...原创 2022-05-18 22:24:06 · 846 阅读 · 0 评论 -
<<视觉问答NeurIPS>>2021:Multimodal Few-Shot Learning with Frozen Language Models
目录摘要:一、介绍二、Related Work三、The Frozen Method3.1、ArchitecturePre-trained Auto-regressive Language ModelsVision EncoderVisual Prefix3.2、Training3.3、Interface at Inference Time3.4、Few-Shot Learning Definitions四、Experiments: A Multi-Mod..原创 2022-05-18 14:44:36 · 1566 阅读 · 2 评论 -
<<视觉问答>>2021:Learning Compositional Representation for Few-shot Visual Question Answering
摘要现有的视觉问答方法在数据量大的情况下表现良好,但在数据缺乏的情况下,对新的问题、对象、答案类别等准确度有限。然而,人类却可以快速适应这些新的类别,因为人们会组织以前见过的概念来描述新的类别,而深度学习方法几乎无法探索这些概念。在本文中,我们建议从有足够数据的答案中提取属性,然后将这些属性组合起来,以约束少数几个few-shot的学习。我们生成了few-shot VQA数据集,其中包含各种答案及其属性,无需人工操作。利用这个数据集,我们构建了属性网络,通过从图像的部分而不是整个图像...原创 2022-05-17 00:20:35 · 1101 阅读 · 0 评论 -
<<视觉问答>>2022:CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual Entailment
摘要:CLIP在各种视觉任务中表现出非凡的zero-shot能力,以前CLIP只被认为是一个强大的视觉编码器。然而,在经过大规模图像文本对的预训练后,CLIP本身也应该具备一些视觉语言任务的few-shot能力。我们的实验表明,CLIP可以成为一个强大的视觉语言few-shot学习器,我们首先评估了CLIP在vqa任务中的zero-shot性能,并展示了CLIP在visual entailment任务中的zero-shot跨模态迁移能力。然后,我们提出了一种参数有效的微调策略,以提高...原创 2022-05-15 19:21:54 · 3786 阅读 · 2 评论 -
<<视觉问答>>2022:SwapMix: Diagnosing and Regularizingthe Over-Reliance on Visual Context in VQA
先看一下下面这篇论文对VQA任务语言偏差的介绍Greedy Gradient Ensemble for Robust Visual Question Answering摘要虽然VQA发展迅速,但之前的工作对当前VQA模型的健壮性提出了担忧。在这项工作中,我们从一个新的角度研究了VQA模型的稳健性:视觉上下文。我们认为,这些模型过度依赖视觉的上下文部分,即图像中与正确的、应该注意到的对象所不相关的对象来进行预测(就是shortcut bias)。为了衡量模型对视觉上下文的依赖程度并...原创 2022-04-27 14:35:08 · 1404 阅读 · 14 评论 -
<<视觉问答>>2022:MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based VQA
`目录摘要一、介绍二、Related Work三、Methodology3.1、Multimodal Knowledge Triplet Extraction3.2、Knowledge Triplet Representation Learning3.3、Knowledge Accumulation and Prediction四、Experiments4.1、Comparison with State-of-the-Art Methods4.2、Ablati..原创 2022-04-26 14:12:42 · 5157 阅读 · 1 评论 -
<<视觉问答>>2022:Dual-Key Multimodal Backdoors for Visual Question Answering
目录后门攻击摘要一、Introduction二:Related Work三、Methods3.1、Threat Model3.2、Backdoor Design3.3、Optimized Patches3.4、Detectors and Models3.5、Backdoor Training3.6、Metrics四、Design Experiments4.1、Visual Trigger Design4.2、Poisoning Percentage..原创 2022-04-25 21:25:32 · 1944 阅读 · 2 评论 -
<<视觉问答>>2021:Zero-shot Visual Question Answering usingKnowledge Graph
目录摘要:一、介绍二、相关工作2.1、Visual Question Answering2.2、Zero-shot VQA三、Preliminaries四、Methodology4.1 Main Idea4.2 Establishment of Multiple Feature Spaces4.3 Answer Mask via Knowledge五、实验5.1 Datasets and Metrics5.2 Implementation Detail..原创 2022-04-23 21:14:23 · 4068 阅读 · 0 评论 -
<<多模态预训练and视觉问答>>2019:LXMERT: Learning Cross-Modality Encoder Representations from Transformers
摘要:视觉语言推理需要理解视觉概念、语言语义,以及最重要的,这两种模式之间的对齐和关系。因此,我们提出LXMERT(利用Transformers学习跨模态编码器表示)框架来学习这些视觉和语言的关系,在LXMERT中,我们构建了一个大规模的Transformer模型,该模型由三个编码器组成:对象关系编码器、语言编码器和跨模态编码器,接下来,为了赋予我们的模型连接视觉和语言语义的能力,我们使用大量的图像和句子对对模型进行预训练,通过五个不同的具有代表性的预训练任务:掩码语言模型、掩蔽对象...原创 2021-12-24 14:24:28 · 967 阅读 · 0 评论 -
<<视觉问答>>2021:Linguistically Routing Capsule Network forOut-of-distribution Visual Question Answerin
摘要:对分布不同的测试数据的泛化是视觉问答中一个重要但尚未充分探讨的主题,当前最先进的VQA模型经常利用数据和标签之间的有偏差的相关性,当测试和训练数据具有不同的分布时,这会导致很大的性能下降。人类可以通过组合已有的概念来识别新的概念,胶囊网络具有表示部分-整体层次结构的能力,受此启发,作者提出使用胶囊来表示部分,并引入“语言路由”来建模部分到整体的层次结构。具体来说,作者首先将视觉特征与单个问题词作为原子部分进行融合,然后我们引入了“语言路由”来重加权两层胶囊之间的连接,这样:1)...原创 2021-12-23 13:37:27 · 1171 阅读 · 0 评论 -
<<视觉问答>>2021:Separating Skills and Concepts for Novel Visual Question Answering
目录摘要:一、介绍二、相关工作三、Skill-Concept Composition in VQA四、方法4.1. Concept Grounding4.2. Skill Matching4.3. Training Procedure 五、实验5.1. Novel Skill-Concept Composition VQA5.2. Novel-Concept VQA5.3. Analysis六、结论摘要: 对数据分布...原创 2021-12-21 16:12:01 · 1068 阅读 · 1 评论 -
<<视觉问答>>2021:Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsu
目录摘要一、介绍二、相关工作三、方法四、细节补充五、数据集六、实验结果6.1. Comparison to baseline method七、结论摘要 grounding VQA任务是指VQA数据集不光有对问题的答案的标注,还有与问题直接相关的图像区域的标注,普通的数据集根据输入的图像和问题,得到预测的答案,预测值与真值做loss,带图像区域标注的VQA数据集,模型可以额外输出问题所注意到的预测的图像的区域,再与真值做loss,强迫模型去学习视...原创 2021-12-19 15:03:33 · 978 阅读 · 0 评论 -
<<视觉问答>>2021:How Transferable are Reasoning Patterns in VQA?
目录摘要:一、介绍二、相关工作三、Analysis of Reasoning Patterns3.1. Visual noise vs. models with perfect-sight3.3、Attention modes and task functions摘要:视觉问答(VQA)任务因为具有语言偏差和捷径偏差的问题,往往会阻碍模型学习真正的依靠图像进行推理。经典的模型通过从训练集中去除偏差数据,或者在模型里添加问题分支来消除偏差。本文作者认为视觉的...原创 2021-12-18 22:48:00 · 1682 阅读 · 0 评论 -
<<视觉问答>>2021:Roses are Red, Violets are Blue... But Should VQA expect Them To?
目录摘要一、介绍二、相关工作三、GQA-OOD: a benchmark for OOD settings四、实验4.1、Evaluation of the proposed metric4.2. Analysis of VQA model error distributions4.3. Re-evaluating bias-reduction methods4.4. Comparison with other benchmarks五、结论摘要 ...原创 2021-12-18 16:47:58 · 495 阅读 · 0 评论 -
<<视觉问答>>2021:Check It Again: Progressive Visual Question Answering via Visual Entailment
一、介绍二、相关工作三、方法3.1、Candidate Answer Selecting3.2、Answer Re-ranking3.2.1、Answer Re-ranking3.2.2、VQA As Visual Entailment3.2.3、Re-Ranking based on VE3.3、Inference Process四、实验4.1、实验设置4.2、实验设置细节五、结论摘要: 大多数2020年的VQA模型虽然依靠...原创 2021-12-17 23:02:21 · 417 阅读 · 0 评论 -
<<视觉问答>>2021:Mind Your Outliers,Investigating the Negative Impact of Outliers on Active Learning VQA
一、介绍二、实验设置2.1、实验流程2.2、VQA模型2.3、主动学习方法三、实验结果四、通过数据集映射图分析五、集体离群值六、结论七、附录前言 主动学习将分类、识别等传统任务的样本效率提高了一个数量级,但在VQA任务中,各种各样的主动学习方法都无法超越随机选择样本的方法。为了理解这种差异,作者在4个数据集、5个模型上,分析了8种主动学习方法,将这种差异归咎于集体异常值——主动学习方法喜欢获取模型无法学习的样本(例如,需要OCR询问图像中文本...原创 2021-12-17 19:21:35 · 500 阅读 · 0 评论