vision&language
文章平均质量分 88
分享vision&language领域的一些论文
NeverMoreH
^_^
展开
-
CVPR 2021 《Domain-robust VQA with diverse datasets and methods but no target labels》论文笔记
目录简介动机方法实验简介论文链接动机由于cv中的方法通常会过拟合数据集,所以很多学者尝试让这些方法对“域变化”鲁棒。但是,这些domain adaptation方法并不适用于VQA任务,主要由于三个原因:VQA任务的输入是多模态的;VQA方法由不同的模块构成了多个步骤,导致优化复杂;不同的VQA数据集的answer space是不同的。为了应对上述问题,作者主要做了以下三个方面的工作:量化不同VQA数据集之间的domain shift,并在image和question domain原创 2021-06-17 20:37:10 · 693 阅读 · 0 评论 -
CVPR 2021 《Causal Attention for Vision-Language Tasks》论文笔记
目录简介动机方法实验简介本文出自张含望老师课题组。论文链接动机文章的第一句就说明了本文的动机,也就是,本文提出了一个新颖的注意力机制,可以消除现有的基于注意力的视觉语言方法中的混杂效应。混杂效应会造成有害的bias,误导注意力模块学到数据中的虚假相关,从而降低模型的泛化性。由于混杂是不可观测的,所以作者使用了前门调整策略实现因果干预。方法现有的方法中通常是建模公式1:作者认为,应该建模P(Y∣do(X))P(Y|do(X))P(Y∣do(X))。但是由于混杂的存在,P(Y∣do(X原创 2021-05-11 10:36:57 · 3497 阅读 · 0 评论 -
AAAI 2021 《Regularizing Attention Networks for Anomaly Detection in Visual Question Answering》论文笔记
目录简介动机方法实验简介本文是POSTECH和Kakao合作的一篇文章。论文链接动机异常检测有助于提升模型的稳定性和可靠性,也就是鲁棒性,OOD问题也可以视为一种异常。但是,单模态的异常检测(MSP)并不能轻易的使用到VQA这种多模态任务中。作者提出了一种基于attention的方法(MAP),可以对VQA中的五种异常进行检测。方法首先,作者将VQA任务中的异常情况分为五种,也就是五个TASK。TASK1~TASK3这三个TASK很好理解,就是在输入的视觉信息VVV和语言信息QQQ中,原创 2021-03-18 15:21:53 · 493 阅读 · 0 评论 -
EMNLP 2020 《MUTANT: A Training Paradigm for Out-of-Distribution Generalization in VQA》论文笔记
目录简介动机方法实验简介论文链接动机VQA中的语言先验问题,也可以说是OOD问题(Out-Of-Distribution)。使用额外的单独分支减轻模型学得语言先验的一类方法试图消除所有的Q-A bias,作者认为这是适得其反的。而本文的出发点是让模型关注正向bias,消除负面bias。正向bias如:对于“what is the color of xxx”问题,模型应回答“颜色”类答案,负面bias如:“香蕉是黄色的”这种语言先验。方法在我个人看来,本文方法可视为一种数据增强。对于数据集中的一个原创 2021-03-17 22:47:47 · 605 阅读 · 1 评论 -
2021.02.23 Visual QA论文阅读
目录[2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answering文章链接文章链接[2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answering文章链接本文的动机很明确,就是组合泛化。什么是组合泛化原创 2021-02-23 17:01:29 · 563 阅读 · 1 评论 -
2021.02.18 Visual QA论文阅读
目录[2017][CVPR] Graph-Structured Representations for Visual Question Answering[2019][ICCV] Language-Conditioned Graph Networks for Relational Reasoning[2019][ICCV] Relation-Aware Graph Attention Network for Visual Question Answering[2020][CVPR] Multi-Modal原创 2021-02-18 20:39:53 · 728 阅读 · 3 评论 -
2021.02.05 Visual QA论文阅读
目录[2016][ECCV] Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering[2016][ECCV] Learning Models for Actions and Person-Object Interactions with Transfer to Question Answering[2016][ECCV] Ask, Attend and Answer:原创 2021-02-05 18:12:29 · 305 阅读 · 0 评论 -
2021.02.04 Visual QA论文阅读
目录[2016][CVPR] Where To Look: Focus Regions for Visual Question Answering[2016][CVPR] Yin and Yang: Balancing and Answering Binary Visual Questions[2016][CVPR] Where To Look: Focus Regions for Visual Question Answering文章链接本文的motivation很明确——knowing where原创 2021-02-04 23:05:16 · 352 阅读 · 0 评论 -
2021.02.03 Visual QA论文阅读
目录[2016][CVPR] Stacked Attention Networks for Image Question Answering[2016][CVPR] Visual7W: Grounded Question Answering in Images[2016][CVPR] Stacked Attention Networks for Image Question Answering文章链接本文出自CMU+微软研究院(何晓冬),应该是第一篇提出VQA需要多步推理的文章。本文的动机来自于:在V原创 2021-02-03 18:02:35 · 388 阅读 · 0 评论 -
2021.02.02 Visual QA论文阅读
目录[2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction[2016][CVPR] Neural Module Networks[2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction文章链接原创 2021-02-02 23:30:40 · 286 阅读 · 1 评论 -
2021.02.01 Visual QA论文阅读
目录[2015][NIPS] Are You Talking to a Machine Dataset and Methods for Multilingual Image Question Answering[2015][NIPS] Exploring Models and Data for Image Question Answering[2015][NIPS] Are You Talking to a Machine Dataset and Methods for Multilingual Imag原创 2021-02-01 21:52:52 · 492 阅读 · 1 评论 -
2021.01.30 Visual QA论文阅读
目录[2015][ICCV] Ask Your Neurons A Neural-Based Approach to Answering Questions About Images[2015][ICCV] Visual Madlibs: Fill in the blank Description Generation and Question Answering[2015][ICCV] VQA: Visual Question Answering[2015][ICCV] Ask Your Neurons原创 2021-01-30 18:49:04 · 424 阅读 · 1 评论 -
2021.01.29 Visual QA论文阅读
目录[2014][NIPS] A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input[2015][CVPR] VisKE: Visual Knowledge Extraction and Question Answering by Visual Verification of Relation Phrases[2014][NIPS] A Multi-World Approac原创 2021-01-29 17:36:05 · 416 阅读 · 2 评论 -
ECCV 2020《TRRNet: Tiered Relation Reasoning for Compositional Visual Question Answering》论文笔记
目录简介动机贡献方法实验简介文章链接动机现有的VQA方法可以分为两类,第一类侧重于对视觉和语言的跨模态联合建模,但是由于缺乏关系推理能力,在组合推理任务上的表现较差。第二类主要侧重于神经模块的设计,但是这类方法需要手工设计,在real-world数据集上难以适用(具有过多的目标类别和可能的推理action)。贡献方法实验...原创 2021-01-07 16:34:18 · 581 阅读 · 1 评论 -
Video Question Answering综述
目录引言选择型视频问答开放型视频问答选择型、开放型均可的视频问答结论参考文献引言 视频问答是视觉语言领域较为新兴的一个课题,需要根据视频内容和问题进行分析,得出问题的答案。根据回答形式,可分为:一、选择型视频问答;二、开放型视频问答。根据方法的提出时间,可以构建出如下时间线:2014 MM JVTP-UEAQ[1]2015 arXiv GRU[2]2016 CVPR MovieQA[3]2017 CVPR MovieFIB[4]2017 C原创 2021-01-04 14:59:46 · 2723 阅读 · 0 评论 -
<文本,场景图>解析实践
目录简介解析结果分析简介使用链接中的代码进行“文本-场景图”解析。解析结果分析Sentence: the beautiful girls likes dog. (此句子有语法错误是为了后面的解释)entities:一个list,里面包含所有实体目标entities[i][‘head’]:被描述的词(名词),去掉了修饰词,如:‘the girls’ -> ‘girls’entities[i][‘lemma_head’]:在head的基础上,去掉了单复数,如 : ‘girls’ ->原创 2020-12-03 12:19:26 · 646 阅读 · 0 评论 -
VALSE Webinar 20-29期 图文并茂, 让视觉与语言相得益彰
目录Richer and DeeperUnbiased Scene Graph GenerationPanel报告时间:2020年12月2日 (星期三)晚上20:00 (北京时间)主持人:杨猛 (中山大学)Richer and Deeper报告人:王鹏 (西北工业大学)Richer:下图中,进行VQA时需要模型具有不同的能力(如Reading能力),理解不同的信息,可能不止Visual信息,需要Knowledge信息等。Arxiv:给模型Text GT,准确率可以达到60%,原创 2020-12-02 22:08:32 · 488 阅读 · 0 评论 -
ICCV 2019《Zero-Shot Grounding of Objects from Natural Language Queries》论文笔记
目录简介动机贡献方法实验简介本文出自南加大,可以对训练集中没有出现的words(或categories)进行grounding。下载链接动机已有的grounding方法在测试时,只能对训练集中出现过的words(或phrases)进行定位。本文提出一个新的task——zero-shot grounding,致力于对训练集中没有出现的words(或phrases)进行定位。但是,由于detector能够识别的categories受限于训练数据,两阶段的grounding方法不适用于此任务。综上,本文原创 2020-11-03 21:15:34 · 771 阅读 · 2 评论 -
ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记
目录简介动机贡献方法实验简介动机贡献方法实验原创 2020-11-03 15:12:22 · 809 阅读 · 0 评论 -
ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记
目录简介动机贡献方法实验简介本文出自香港大学的sibei,二作是中山大学李冠斌老师下载链接动机Phrase level visual grounding具有两个challenge:①大量的、可变的视觉内容,多样的短语描述(不同的短语描述可能指向同一个bbox,eg:穿红衣服的男子、拉小提琴的男子。。。);②短语关系推理中存在明确的引用(顺序?)。现有方法分为两类:①大多数方法不建模短语之间的关系,而关注于特征融合,如下图(a);②少部分方法考虑了短语之间的关系,但是它们捕获的是部分(或粗糙)的短语原创 2020-10-28 21:26:34 · 682 阅读 · 0 评论 -
ICCV 2019 运行LCGN遇到的问题及解决办法
目录文章简介Issues现需要在CLEVR-Ref+数据集上测试LCGN模型,遇到了一些问题, 记录一下。文章简介Language-Conditioned Graph Networks for Relational Reasoning文章链接pytorch代码链接tensorflow代码链接IssuesImportError: cannot import name ‘imread’ from ‘scipy.misc’这是由于scipy的版本过高导致,卸载scipy,安装1.2.1版本即可原创 2020-10-13 17:03:22 · 781 阅读 · 0 评论 -
CVPR 2020 运行SGMN遇到的问题及解决办法
目录文章简介Issues环境配置Ref-Reasoning数据集格式train(val)_expression.jsontrain(val)_sgs.jsontrain(val)_sg_seqs.json文章简介Graph-Structured Referring Expressions Reasoning in The Wild代码链接论文链接Issues在作者代码的README中,有环境配置的步骤,不过python2.7+pytorch0.4.0支持的cuda版本和本机显卡支持的cuda版本原创 2020-10-12 16:58:04 · 1339 阅读 · 2 评论 -
One-Stage Visual Grounding论文汇总
目录现有方法2017 arXiv题目动机简介2017 CVPR题目动机简介2017 CVPR题目动机简介2017 IJCAI题目动机简介2018 arXiv题目动机简介2018 CVPR题目动机简介2019 ICCV题目动机简介2019 WACV题目动机简介2020 CVPR题目动机简介2020 ECCV题目动机简介xxx题目动机简介总结one-stage解决的问题one-stage方法的好处现有方法2017 arXiv题目An End-to-End Approach to Natural Lang原创 2020-10-09 14:43:23 · 3318 阅读 · 2 评论 -
CVPR 2019 《Cross-Modal Relationship Inference for Grounding Referring Expressions》论文笔记
题目Cross-Modal Relationship Inference for Grounding Referring Expressions下载链接动机已有方法不能准确地、一致地表示两种模态(referring expressions、object proposals)的上下文关系,具体为:要么不能准确建模,要么不能达到跨模态的高阶一致性。计算出的pairwise visual differences只能代表同类对象之间、instance-level的差异。要么不支持关系建模,要么只考虑原创 2020-10-09 12:34:48 · 865 阅读 · 0 评论 -
CVPR 2020 运行12-in-1遇到的问题及解决办法(持续更新中)
目录文章简介Issues文章简介本文是一篇vision&language跨模态的bert模型。代码链接论文链接IssuesModuleNotFoundError: No module named ‘external._mask’pip install Cpythoncd tools/refer/python setup.py build_ext install(refer.py) change “from external import mask” to “from .ex原创 2020-09-29 16:32:19 · 1297 阅读 · 4 评论 -
CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记
目录简介动机贡献方法实验简介动机贡献方法实验原创 2020-08-31 10:27:33 · 1273 阅读 · 0 评论 -
ACL 2020 《Cross-Modality Relevance for Reasoning on Language and Vision》论文笔记
目录简介动机贡献方法实验简介本文设计了一个Cross-Modality Relevance Module(跨模态相关模块),对不同模态的信息进行关联,且在不同的task上都是端到端训练。下载链接动机跨模态表示学习中,有一类方法致力于寻找处理不同模态数据时,components和structure的相关性,现有的方法多使用注意力机制。随着信息检索领域的发展,寻找不同信息之间的相关性(也就是“matching”)作为核心问题,变得越来越重要。之后,Transformer出现了,受益于“matching原创 2020-08-27 14:54:08 · 832 阅读 · 0 评论 -
ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记
目录简介动机贡献方法实验简介本文出自罗彻斯特大学+腾讯AI Lab下载链接动机贡献方法实验原创 2020-08-20 19:54:17 · 794 阅读 · 0 评论 -
FVQA论文汇总
目录IJCAI2020 Mucko题目Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual Question Answering下载链接代码链接本文出自中科院自动化所+微软亚研+阿德莱德吴琦老师动机贡献方法本文方法的整体结构如下图所示,可以看出,有两个核心步骤:构造多模态异构图(Multi-Modal Heterogeneous Graph Construction)、跨模态原创 2020-08-13 11:03:34 · 1038 阅读 · 3 评论 -
TextVQA论文汇总
目录CVPR2019:LoRRA(数据集)题目Towards VQA Models That Can Read下载链接出自Facebook AI研究院动机视觉障碍者对于VQA的需求主要围绕于阅读图片上的问题,但是现有的VQA模型并没有这个功能。故本文提出了一个全新的数据集“TextVQA”,并基于此数据集提出了可以利用图片上文字信息进行VQA的方法LoRRA。贡献提出TextVQA数据集。提出LoRRA方法(Look、Read、Reason & Answer),可以基于O原创 2020-08-12 10:38:37 · 1163 阅读 · 0 评论 -
Visual BERT论文的简单汇总
目录ICCV 2019 VideoBERTNIPS 2019 ViLBERTarXiv 2019 VisualBERTarXiv 2019 CBTarXiv 2019 UNITEREMNLP-IJCNLP 2019 B2T2EMNLP-IJCNLP 2019 LXMERTICLR 2020 VL-BERTAAAI 2020 Unicoder-VLAAAI 2020 VLPCVPR 2020 12-in-1关于BERT和Transformer的介绍,可以看我的这篇博客。ICCV 2019 VideoBE原创 2020-07-23 23:56:10 · 3123 阅读 · 0 评论 -
Visual Question Answering概述
目录任务描述应用领域主要问题主流框架常用数据集Metrics任务描述输入:图片III、由nnn个单词组成的问题Q={q1,...,qn}Q=\{ q_1,...,q_n \}Q={q1,...,qn}输出:由mmm个单词组成的问题的答案A={a1,...,am}A=\{ a_1,...,a_m \}A={a1,...,am}应用领域盲人导航图灵测试主要问题鲁棒性差模型的鲁棒性差可多个方面体现,如缺乏可解释性、回答不一致等。造成这个问题的原因也是多方面的,如训练集和测试集原创 2020-07-22 20:46:15 · 1594 阅读 · 0 评论 -
Image Captioning概述
目录任务描述应用领域主要问题主流框架常用数据集Metrics本文部分内容参考自知乎任务描述输入:图片III输出:由 nnn个单词组成的图片内容描述S={S1,...Sn}S=\{ S_1,...S_n \}S={S1,...Sn}应用领域图文互搜(细粒度)图像检索对视觉障碍者进行辅助主要问题dataset bias已有方法:将cnn特征分解为object、attributes、relation、function等参考文献:[1] ICCV 2019 Learning原创 2020-07-22 17:23:21 · 2979 阅读 · 2 评论 -
IJCAI 2019 《GraspSnooker: Automatic Chinese Commentary Generation for Snooker Videos》论文笔记
目录简介动机贡献方法实验简介本文是东南大学和字节跳动AI Lab合作的一篇文章,task是自动为斯诺克比赛生成解说。下载链接动机斯诺克解说可以帮助初学者进行学习,同时能够增加观看比赛的趣味性。现在已经有了NBA视频、国际象棋比赛的自动解说模型,但是这些方法都缺乏了对体育比赛策略的深入分析。贡献构造了一个数据集,包含10.8k的single shot video、15.7k的commentaries。提出了一个可以自动生成解说的系统,包含三个组件:视频分析器(video analyzer)、原创 2020-07-22 16:23:15 · 1028 阅读 · 0 评论 -
arXiv 2019 《DCA: Diversified Co-Attention towards Informative Live Video Commenting》论文笔记
目录简介动机贡献方法实验简介北大电子工程与计算机科学学院、华科软件工程学院、北航软件学院合作的一篇文章,算是我看到的第二篇ALVC任务方面的论文,看这个版面和参考文献格式,感觉是投了ICML。下载链接task challenge:如何合理地利用视频和文本中丰富、多样的信息。动机作者先是分析了相关工作(实际上只有AAAI2019的那一篇,链接),指出该文章中没有将视觉信息和文字信息整合在一起,可能导致信息多样性有限。surrounding comments是基于video生成的,包含video原创 2020-07-22 15:29:43 · 303 阅读 · 0 评论 -
AAAI 2019 《LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts》论文笔记
目录简介动机贡献方法实验简介本文出自北大孙栩老师课题组,是第一篇提出ALVC(Automatic Live Video Commenting)任务的文章。更确切的说,此task的目标是,生成video barrage(视频弹幕)。下载链接task challenge:弹幕和视频存在复杂的依赖关系。动机弹幕可以让视频变得更加有趣、吸引人。同时,弹幕可以在观众之间建立联系,使他们的意见和评论更加明显(弹幕 vs 评论)。这些特性会对用户数量、视频点击量、视频观看时长带来显著影响。这个新的ta原创 2020-07-22 13:20:20 · 489 阅读 · 0 评论 -
CVPR 2020 《Graph-Structured Referring Expression Reasoning in The Wild》论文笔记
目录简介动机贡献方法实验简介本文是CVPR2020的一篇oral文章,指导教师是中山大学的李冠斌教授。下载链接动机贡献方法实验原创 2020-07-15 23:06:21 · 1273 阅读 · 0 评论 -
CVPR 2020 《Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences》论文笔记
目录简介动机贡献方法实验简介动机贡献方法实验原创 2020-07-12 23:38:09 · 1727 阅读 · 0 评论 -
CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记
目录简介动机贡献方法实验简介动机贡献方法实验原创 2020-07-09 20:45:22 · 1205 阅读 · 2 评论 -
CVPR 2020 《Local-Global Video-Text Interactions for Temporal Grounding》论文笔记
目录简介动机简介下载链接动机# 贡献# 方法# 实验原创 2020-07-02 15:44:47 · 876 阅读 · 0 评论