下面是我对最近阅读的论文:Question-Guided Hybrid Convolution for Visual Question Answering一些简要的理解。
一、摘要
在本文中,我们提出了一种新颖的问题指导混合卷积(QGHC)网络,用于视觉问题解答(VQA)。大多数最先进的VQA方法融合了神经网络的高级文本和视觉功能,并在学习多模式特征时放弃了视觉空间信息。为了解决这些问题,从输入问题生成的以问题为指导的内核被设计为与视觉特征进行卷积,以便在早期捕获文本和视觉关系。以问题为导向的卷积可以将文本和视觉信息紧密耦合。但在学习内核时也可以引入更多参数。我们应用由与问题无关的内核和与问题相关的内核组成的组卷积来减小参数大小并缓解过度拟合。混合卷积可以使用较少的参数生成判别式多模态特征。所提出的方法还补充了现有的双线性合并和基于注意力的VQA方法。通过与它们集成,我们的方法可以进一步提高性能。在VQA数据集上进行的实验验证了QGHC的有效性。
二、介绍
这篇文章中的贡献在三个方面:
(1)我们提出了一种基于问题引导卷积核的新型多峰特征融合方法。相对视觉区域对输入问题有较高的响应,并且可以通过在QGHC模型中对这种连接进行编码来很好的捕获空间信息。QGHC探索了有益于视觉问题推理的深层多模态关系。
(2)为了在问题引导卷积中实现了存储效率和鲁棒性能(在一定的参数影响下,能够维持其它某些性能的特性),我们提出了组卷积来学习内核参数。与问题相关的内核对视觉和文本信息的关系进行建模,而与问题无关的内核则减少了参数大小并减轻了过度拟合的可能性。
(3)对公共数据集的广泛实验和消融研究表明了所提出的QGHC和每个单独组件的有效性。我们的方法使用更少的参数,胜过了最先进的方法。
三、问题引导混合卷积的视觉问题回答
对VQA使用多个问题指导的混合卷积模块的图示。问题引导的内核由输入问题进行预测,并通过视觉特征进行卷积。问题引导卷积激活的可视化显示它们逐渐集中在与正确答案对应的区域上。(问题引导内核引起的一个问题是大量参数使训练模型变得困难,直接预测“全”卷积滤波器需要估计数千个参数,会导致内存效率低下且耗费时间。)
网络根据问题特征预测卷积核,然后将它们与视觉特征图卷积。我们将多个问题指导的混合卷积模块,一个平均池层和一个分类器层堆叠在一起。语言引导卷积的输出是用于回答问题的融合文本-视觉特征图。为了提高存储效率和实验精度,我们利用分组卷积来基于问题特征预测卷积核的一部分。