论文阅读 【Explicit Knowledge-based Reasoning for Visual Question Answering】CVPR2016

一.

摘要:通过知识库进行视觉问答,不仅能够使用图像中不包含的概念,还可以解释推理过程。另外,本文还提供了一个新的数据集和一个新的规则来评价视觉问答方法。

 

Motivation:之前的CNN+Lstm方法只能回答简单的问题,并且对先验信息的利用不足,最重要的LSTM只能在非常局限的语境下进行显式推理。因此本文提出Ahab,首先检测图像中的相关内容并于知识库关联;问题再转换成基于图像和知识库信息的方法,经过多层推理得到最终答案。

 

背景:大规模的结构化知识库将关系表示成(arg1,re1,arg2),本文使用的是DBpedia,包含来自维基百科的结构化信息。先前利用外部知识库的方法是一种非自然语言的关系查询方法。

 

贡献:1.提出了一个视觉问答模型Ahab;提出一个新的数据集KB-VQA,该数据集的答案需要视觉、常识、外部知识库进行回答。

 

二.数据集

从MS COCO中选择700幅图,五个提问者依据23个模板提出3-5个问答对,并填写属性。每个问题还有一个标签,用于表明是视觉、常识或知识库问题。三类标签问题的量分别为1256,883,263。

 

三. 方法

  1. RDF 图建立

(1)从图像中检测三种视觉概念:物体、场景、属性。

物体:在MS COCO 和ImageNet 上训练Fast-RCNN。

场景:在MIT Places205上训练VGG-16,取前三最高分。

图像属性:在ImageNet上训练,在MS COCO上微调VGG-16,每幅图取10个属性。

(2) 视觉概念与知识库联合,即上面得到的实体放入知识库中。

使用统一的资源标识符标识实体,联合视觉概念和DB百科得到结合图像和DB百科的RDF。接着,通过local OpenLink Virtuoso RDBMS关系数据库管理系统访问。

2.  回答问题

(1) 解析自然语言问题。用一些列NLP工具包,这块不是很清楚怎么做的。

(2) 将解析后的短语与知识库实体匹配。

(3) 映射到知识库尸体后,再根据问题模板生成SPARQL查询语句。

(4) 查询得到实体后使用工具包后处理(Python within Quepy),得出答案。整个查询过程即为推理过程。

 

四. 实验

评估方式:人类对答案进行五个评分,1分完全错误,5分完美。4分或者5分认为正确,其余为错误。

 

 

 

explicit spectral-to-spatial convolution for pansharpening是一种用于全色融合的显式光谱到空间卷积方法。全色融合是将高分辨率的全色(黑白)图像与低分辨率的多光谱(彩色)图像融合,以提高图像质量和细节。传统的融合方法常常使用高通滤波器进行频域操作,而explicit spectral-to-spatial convolution for pansharpening则使用基于卷积的空间域方法。 该方法基于以下原理:在全色图像中,光谱分辨率高,但空间分辨率较低;而在多光谱图像中,光谱分辨率较低,但空间分辨率较高。因此,通过将全色图像的光谱信息传递给多光谱图像,可以提高多光谱图像的空间分辨率。 explicit spectral-to-spatial convolution for pansharpening方法通过使用卷积核,将全色图像的光谱信息转换为空间域的高频细节。这个卷积核是根据光谱和空间信息之间的关系而设计的。通过将这个卷积核应用于低分辨率的多光谱图像,可以增强其空间细节,使其接近高分辨率的全色图像。 这种方法的优势在于显式地将光谱信息转换为空间域的细节,能够更好地保留图像的光谱特征和空间细节。与传统的频域方法相比,显式光谱到空间卷积方法更容易实现,并且能够更好地适应各种图像场景。 总之,explicit spectral-to-spatial convolution for pansharpening是一种通过卷积将全色图像的光谱信息转换为多光谱图像的空间细节的方法,以实现全色融合,提高图像质量和细节。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值