Ask Me Anything:Free-form Visual Question Answering Based on Knowledge from External Sources

  这篇文章将自动生成的图像描述与一个外部的Knowledge bases相融合,对问题进行预测。图像描述生成主要来自于image captions集,并且从Knowledge bases提取基于文本的外部知识。框架图:
这里写图片描述
   给定图像-问答对,首先利用CNN提取图像的Attributes集合。这些Attributes涉及范围很广,包括object,scenes,action,modifiers等等。同时采用一个state-of-art image caption方法,生成基于这些Attributes的captions集合。然后利用这些检测到的Attributes从KB中提取他们之间的相关信息。文中选中top-5的attributes,生成适用于Resource Description Framework(RDF) KB的一个query,RDF是KB的一种标准格式。 经过DBpedia的处理,从KB中提取出图像相关描述的一个段落,利用Doc2Vec对这些段落编码,形成段落的特征表达。最后将编码的Attributes,captions 和KB 相关信息输入到LSTM中,利用最大似然方法处理代价函数,预测答案。这种方法在COCO-QA,上精度达到了69.73%。
   Paper中提到,图像内容可以用Attributes来表示。文中从MS-COCO中提取图像attributes,并且把attributes预测当成是一个多标签分类任务,主要通过图像局部区域提取attributes。利用Vgg-Net16初始化attribute预测模型。
   这里写图片描述
   在Image caption模块,文中生成5个不同的image captions 形成图像的文本表达。
   利用DBpedia生成外部数据源
   文中通过最大化正确答案的概率训练VQA model
  这里写图片描述
  Q={q1,q2,q3…}表示问题句子,A={a1,a2,a3…}是答案句子。
   本文实验主要在COCO-QA和VQA dataset上进行。
   这里写图片描述
   这里写图片描述
   这里写图片描述
   总结:Knowledge Bases在VQA上的使用,可以在此寻求突破。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值