![](https://img-blog.csdnimg.cn/20190927151101105.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
visual question answering
文章平均质量分 89
和VQA相关的知识
NeverMoreH
^_^
展开
-
CVPR 2021 《Domain-robust VQA with diverse datasets and methods but no target labels》论文笔记
目录简介动机方法实验简介论文链接动机由于cv中的方法通常会过拟合数据集,所以很多学者尝试让这些方法对“域变化”鲁棒。但是,这些domain adaptation方法并不适用于VQA任务,主要由于三个原因:VQA任务的输入是多模态的;VQA方法由不同的模块构成了多个步骤,导致优化复杂;不同的VQA数据集的answer space是不同的。为了应对上述问题,作者主要做了以下三个方面的工作:量化不同VQA数据集之间的domain shift,并在image和question domain原创 2021-06-17 20:37:10 · 650 阅读 · 0 评论 -
AAAI 2021 《Regularizing Attention Networks for Anomaly Detection in Visual Question Answering》论文笔记
目录简介动机方法实验简介本文是POSTECH和Kakao合作的一篇文章。论文链接动机异常检测有助于提升模型的稳定性和可靠性,也就是鲁棒性,OOD问题也可以视为一种异常。但是,单模态的异常检测(MSP)并不能轻易的使用到VQA这种多模态任务中。作者提出了一种基于attention的方法(MAP),可以对VQA中的五种异常进行检测。方法首先,作者将VQA任务中的异常情况分为五种,也就是五个TASK。TASK1~TASK3这三个TASK很好理解,就是在输入的视觉信息VVV和语言信息QQQ中,原创 2021-03-18 15:21:53 · 469 阅读 · 0 评论 -
EMNLP 2020 《MUTANT: A Training Paradigm for Out-of-Distribution Generalization in VQA》论文笔记
目录简介动机方法实验简介论文链接动机VQA中的语言先验问题,也可以说是OOD问题(Out-Of-Distribution)。使用额外的单独分支减轻模型学得语言先验的一类方法试图消除所有的Q-A bias,作者认为这是适得其反的。而本文的出发点是让模型关注正向bias,消除负面bias。正向bias如:对于“what is the color of xxx”问题,模型应回答“颜色”类答案,负面bias如:“香蕉是黄色的”这种语言先验。方法在我个人看来,本文方法可视为一种数据增强。对于数据集中的一个原创 2021-03-17 22:47:47 · 562 阅读 · 1 评论 -
2021.02.23 Visual QA论文阅读
目录[2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answering文章链接文章链接[2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answering文章链接本文的动机很明确,就是组合泛化。什么是组合泛化原创 2021-02-23 17:01:29 · 530 阅读 · 1 评论 -
2021.02.18 Visual QA论文阅读
目录[2017][CVPR] Graph-Structured Representations for Visual Question Answering[2019][ICCV] Language-Conditioned Graph Networks for Relational Reasoning[2019][ICCV] Relation-Aware Graph Attention Network for Visual Question Answering[2020][CVPR] Multi-Modal原创 2021-02-18 20:39:53 · 675 阅读 · 3 评论 -
2021.02.05 Visual QA论文阅读
目录[2016][ECCV] Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering[2016][ECCV] Learning Models for Actions and Person-Object Interactions with Transfer to Question Answering[2016][ECCV] Ask, Attend and Answer:原创 2021-02-05 18:12:29 · 259 阅读 · 0 评论 -
2021.02.04 Visual QA论文阅读
目录[2016][CVPR] Where To Look: Focus Regions for Visual Question Answering[2016][CVPR] Yin and Yang: Balancing and Answering Binary Visual Questions[2016][CVPR] Where To Look: Focus Regions for Visual Question Answering文章链接本文的motivation很明确——knowing where原创 2021-02-04 23:05:16 · 325 阅读 · 0 评论 -
2021.02.03 Visual QA论文阅读
目录[2016][CVPR] Stacked Attention Networks for Image Question Answering[2016][CVPR] Visual7W: Grounded Question Answering in Images[2016][CVPR] Stacked Attention Networks for Image Question Answering文章链接本文出自CMU+微软研究院(何晓冬),应该是第一篇提出VQA需要多步推理的文章。本文的动机来自于:在V原创 2021-02-03 18:02:35 · 359 阅读 · 0 评论 -
2021.02.02 Visual QA论文阅读
目录[2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction[2016][CVPR] Neural Module Networks[2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction文章链接原创 2021-02-02 23:30:40 · 266 阅读 · 1 评论 -
2021.02.01 Visual QA论文阅读
目录[2015][NIPS] Are You Talking to a Machine Dataset and Methods for Multilingual Image Question Answering[2015][NIPS] Exploring Models and Data for Image Question Answering[2015][NIPS] Are You Talking to a Machine Dataset and Methods for Multilingual Imag原创 2021-02-01 21:52:52 · 453 阅读 · 1 评论 -
2021.01.30 Visual QA论文阅读
目录[2015][ICCV] Ask Your Neurons A Neural-Based Approach to Answering Questions About Images[2015][ICCV] Visual Madlibs: Fill in the blank Description Generation and Question Answering[2015][ICCV] VQA: Visual Question Answering[2015][ICCV] Ask Your Neurons原创 2021-01-30 18:49:04 · 396 阅读 · 1 评论 -
2021.01.29 Visual QA论文阅读
目录[2014][NIPS] A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input[2015][CVPR] VisKE: Visual Knowledge Extraction and Question Answering by Visual Verification of Relation Phrases[2014][NIPS] A Multi-World Approac原创 2021-01-29 17:36:05 · 386 阅读 · 2 评论 -
ECCV 2020《TRRNet: Tiered Relation Reasoning for Compositional Visual Question Answering》论文笔记
目录简介动机贡献方法实验简介文章链接动机现有的VQA方法可以分为两类,第一类侧重于对视觉和语言的跨模态联合建模,但是由于缺乏关系推理能力,在组合推理任务上的表现较差。第二类主要侧重于神经模块的设计,但是这类方法需要手工设计,在real-world数据集上难以适用(具有过多的目标类别和可能的推理action)。贡献方法实验...原创 2021-01-07 16:34:18 · 542 阅读 · 1 评论 -
ICCV 2019 运行LCGN遇到的问题及解决办法
目录文章简介Issues现需要在CLEVR-Ref+数据集上测试LCGN模型,遇到了一些问题, 记录一下。文章简介Language-Conditioned Graph Networks for Relational Reasoning文章链接pytorch代码链接tensorflow代码链接IssuesImportError: cannot import name ‘imread’ from ‘scipy.misc’这是由于scipy的版本过高导致,卸载scipy,安装1.2.1版本即可原创 2020-10-13 17:03:22 · 703 阅读 · 0 评论 -
ACL 2020 《Cross-Modality Relevance for Reasoning on Language and Vision》论文笔记
目录简介动机贡献方法实验简介本文设计了一个Cross-Modality Relevance Module(跨模态相关模块),对不同模态的信息进行关联,且在不同的task上都是端到端训练。下载链接动机跨模态表示学习中,有一类方法致力于寻找处理不同模态数据时,components和structure的相关性,现有的方法多使用注意力机制。随着信息检索领域的发展,寻找不同信息之间的相关性(也就是“matching”)作为核心问题,变得越来越重要。之后,Transformer出现了,受益于“matching原创 2020-08-27 14:54:08 · 806 阅读 · 0 评论 -
FVQA论文汇总
目录IJCAI2020 Mucko题目Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual Question Answering下载链接代码链接本文出自中科院自动化所+微软亚研+阿德莱德吴琦老师动机贡献方法本文方法的整体结构如下图所示,可以看出,有两个核心步骤:构造多模态异构图(Multi-Modal Heterogeneous Graph Construction)、跨模态原创 2020-08-13 11:03:34 · 997 阅读 · 3 评论 -
TextVQA论文汇总
目录CVPR2019:LoRRA(数据集)题目Towards VQA Models That Can Read下载链接出自Facebook AI研究院动机视觉障碍者对于VQA的需求主要围绕于阅读图片上的问题,但是现有的VQA模型并没有这个功能。故本文提出了一个全新的数据集“TextVQA”,并基于此数据集提出了可以利用图片上文字信息进行VQA的方法LoRRA。贡献提出TextVQA数据集。提出LoRRA方法(Look、Read、Reason & Answer),可以基于O原创 2020-08-12 10:38:37 · 1116 阅读 · 0 评论 -
Visual Question Answering概述
目录任务描述应用领域主要问题主流框架常用数据集Metrics任务描述输入:图片III、由nnn个单词组成的问题Q={q1,...,qn}Q=\{ q_1,...,q_n \}Q={q1,...,qn}输出:由mmm个单词组成的问题的答案A={a1,...,am}A=\{ a_1,...,a_m \}A={a1,...,am}应用领域盲人导航图灵测试主要问题鲁棒性差模型的鲁棒性差可多个方面体现,如缺乏可解释性、回答不一致等。造成这个问题的原因也是多方面的,如训练集和测试集原创 2020-07-22 20:46:15 · 1564 阅读 · 0 评论 -
2020年, VQA论文汇总
目录CVPR2020:CSSAAAI2020:OLPCVPR2020:CSS题目Counterfactual Samples Synthesizing for Robust Visual Question Answering下载链接本文出自浙江大学DCD实验室。动机由于测试集和训练集的QA分布不同,会造成language bias。为应对这个现象,作者认为,训练好的模型应具有两个能力:(1)visual-explainable,在生成answer的时候,应该更多的依赖image中正确的区域。原创 2020-06-17 12:36:15 · 1970 阅读 · 0 评论 -
2019年, VQA论文汇总
目录XNMs: CVPR2019XNMs: CVPR2019下载链接南洋理工大学张含望老师小组的工作.动机在NMN (神经模块网络) 出现之前, 针对VQA任务提出的方法都是黑箱的, 是连接主义"流派"的, 神经网络会直接基于数据集学到inductive bias, 使得模型的结果缺乏可解释性. NMN在连接主义和符号主义之间"架设"了一座桥梁, 使后来的VQA方法具有了可解释性. 但...原创 2020-03-24 16:29:48 · 1992 阅读 · 0 评论