2021.02.04 Visual QA论文阅读

[2016][CVPR] Where To Look: Focus Regions for Visual Question Answering

文章链接
本文的motivation很明确——knowing where to look。

方法上,本文只针对多项选择式VQA。首先,得到region features v i v_i vi和text feature q q q,先经过 g i = ( A v i + b A ) T ( B q + b B ) g_i = (Av_i+b^A)^T(Bq+b^B) gi=(Avi+bA)T(Bq+bB) softmax ( g ) \text{softmax}(g) softmax(g)得到region weight s i s_i si,然后将region features v i v_i vi和text feature q q q连接,得到 d i = [ v i , q ] d_i = [v_i, q] di=[vi,q],最后经过 z = ∑ i ( W d i , + b W ) s i z = \sum_{i}(Wd_i,+b^W)s_i z=i(Wdi,+bW)si得到weighted average feature z z z,用于后续的分类和分数预测。

下面是在VQA数据集上的实验结果,和一些可视化的实验结果。


[2016][CVPR] Yin and Yang: Balancing and Answering Binary Visual Questions

文章链接
本文题目中提到阴阳,其实就是想说balance。。。作者先是从language prior的角度出发,说语言信息能够对VQA任务提供先验信息,如:对于question “Is the xxx yyy zzz?”,答案一定是yes or no。本文正是针对这类VQA问题(回答是yes or no的QA pair),作者对VQA数据集进行了balance,然后提出了一种基于visual verification的binary VQA方法。

关于作者如何balance数据集,这里就不多提了,下面简单介绍一下本文的方法。由于作者只针对binary VQA,本文的模型分为两个组成部分:① 语言解析(Language Parsing);② 视觉验证(Visual Verification)。在语言解析部分,作者使用斯坦福解析器对question进行解析,然后做一些“剪枝”操作(去除some、the等stop words,去除is、do等辅助动词),得到question的summary。如:Is the woman on couch petting the dog? → woman on couch petting dog. 然后,作者提取PRS三元组<woman on couch, petting, dog>,这部分作者使用了[17]中的方法。得到三元组后,需要将其中的P和S对应到图片中,这部分作者参考[39]中的方法,将图片中和单词(如:dog)互信息最高的部分作为referent。完成alignment后,需要进行视觉验证。视觉验证部分训练了两个模型,分别是Q-model和Tuple-model。Q-model使用image feature和question global feature(使用LSTM得到)作为输入,做一个point-wise multiplication,得到多模态表示,经过fc层得到yes or no的输出。Tuple-model使用image feature(和Q-model一样)和PRS words feature(使用word2vec得到,进行concatenation)作为输入,和Q-model做一样的后续操作。得到的两份yes or no,经过乘法(我理解的是,都为yes才是yes)得到最终答案。注意: image feature是aligned PS image feature。

实验结果分为两部分,unbalanced VQA和balanced VQA。

可视化实验结果:

[17] P. Halcsy, A. Kornai, and C. Oravecz. Hunpos - an open source trigram tagger. In ACL, 2007. 5
[39] C. L. Zitnick, D. Parikh, and L. Vanderwende. Learning the Visual Interpretation of Sentences. In ICCV, 2013. 2, 3, 5

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值