视觉问答VQA领域论文集锦

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/weixin_34613450/article/details/80691422

刚找的综述性文章:这两篇我没怎么看不知道怎么样

Visual Question Answering: Datasets,Algorithms, and Future Challenges

Visual Question Answering: A Survey ofMethods and Datasets

 

论文:

A multi-world approach to question answeringabout real-world scenes based on uncertain input. NIPS, 2014.

比较早的一篇文章

 

Ask Your Neurons: A Neural-based Approach toAnswering Questions about Images. ICCV 2015

这篇文章也比较早,方法比较基础,VQA初期采用的方法

 

Where To Look: Focus Regions for VisualQuestion Answering。

加入attention机制的一篇文章

 

Image Question Answering using ConvolutionalNeural Network with Dynamic Parameter Prediction. CVPR 2016,

想法比较好,我之前一篇文章就是基于这篇做了进一步工作

 

Exploring models and data for image questionanswering. NIPS, 2015.

加拿大那边的一篇文章提出了一个数据集,规模较小但是可以算最早的数据集

 

Learning to Answer Questions From Image UsingConvolutional Neural Network, AAAI, 2016.

好像是李航老师的文章,感觉一般

 

Compositional Memory for Visual QuestionAnswering .

 

Hierarchical Question-Image Co-Attention forVisual Question Answering。NIPS2016,

采用图像attention问题,再用问题attention图像

 

Dynamic Memory Networks for Visual andTextual Question Answering。

这篇文章比较犀利,在处理文本问答和图像问答都可以,而且效果比较好

 

Ask Me Anything: Free-form Visual QuestionAnswering Based on Knowledge from External Sources CVPR 2016

沈春华老师的文章,这篇加入了外接知识库

 

Visual7W: Grounded Question Answering inImages CVPR 2016

李飞飞老师的文章,这篇提出了一个新的数据集Visual7W

 

Stacked Attention Networks for Image QuestionAnswering

采用多次关注聚焦的方式来处理定位问题关注点

 

VQA: Visual Question Answering

提出了目前最大的数据集mscocoQA 网页:http://www.visualqa.org/

 

Neural Module Networks

这篇文章也比较犀利,他有个姊妹篇,同一作者。而且差不多,这篇是更好的一篇,cvpr2016,根据问题不同动态组合网络。

 

Image Captioning and Visual QuestionAnswering Based on Attributes and Their Related External Knowledge

沈春华老师的文章,提取高层次语义概念的图像特征

 

 

最近应该还有新的论文,可以再arxiv上搜一下

阅读更多
想对作者说点什么?

博主推荐

换一批

没有更多推荐了,返回首页