《Question-Guided Hybrid Convolution for Visual Question Answering》 (用于视觉问题回答的问题引导混合卷积)论文理解

本文提出了一种名为QGHC的新方法,用于视觉问答(VQA)任务,解决了传统方法在多模态特征融合时丢失视觉空间信息的问题。QGHC通过问题引导的卷积内核捕获文本和视觉关系,同时通过组卷积减少参数量和过拟合。实验表明,QGHC在VQA数据集上表现优越,并能与双线性池和注意力机制有效结合。
摘要由CSDN通过智能技术生成

下面是我对最近阅读的论文:Question-Guided Hybrid Convolution for Visual Question Answering一些简要的理解。

一、摘要

在本文中,我们提出了一种新颖的问题指导混合卷积(QGHC)网络,用于视觉问题解答(VQA)。大多数最先进的VQA方法融合了神经网络的高级文本和视觉功能,并在学习多模式特征时放弃了视觉空间信息。为了解决这些问题,从输入问题生成的以问题为指导的内核被设计为与视觉特征进行卷积,以便在早期捕获文本和视觉关系。以问题为导向的卷积可以将文本和视觉信息紧密耦合。但在学习内核时也可以引入更多参数。我们应用由与问题无关的内核和与问题相关的内核组成的组卷积来减小参数大小并缓解过度拟合。混合卷积可以使用较少的参数生成判别式多模态特征。所提出的方法还补充了现有的双线性合并和基于注意力的VQA方法。通过与它们集成,我们的方法可以进一步提高性能。在VQA数据集上进行的实验验证了QGHC的有效性。

二、介绍

这篇文章中的贡献在三个方面:
(1)我们提出了一种基于问题引导卷积核的新型多峰特征融合方法。相对视觉区域对输入问题有较高的响应,并且可以通过在QGHC模型中对这种连接进行编码来很好的捕获空间信息。QGHC探索了有益于视觉问题推理的深层多模态关系。
(2)为了在问题引导卷积中实现了存储效率和鲁棒性能(在一定的参数影响下,能够维持其它某些性能的特性),我们提出了组卷积来学习内核参数。与问题相关的内核对视觉和文本信息的关系进行建模,而与问题无关的内核则减少了参数大小并减轻了过度拟合的可能性。
(3)对公共数据集的广泛实验和消融研究表明了所提出的QGHC和每个单独组件的有效性。我们的方法使用更少的参数,胜过了最先进的方法。

三、问题引导混合卷积的视觉问题回答

在这里插入图片描述
对VQA使用多个问题指导的混合卷积模块的图示。问题引导的内核由输入问题进行预测,并通过视觉特征进行卷积。问题引导卷积激活的可视化显示它们逐渐集中在与正确答案对应的区域上。(问题引导内核引起的一个问题是大量参数使训练模型变得困难,直接预测“全”卷积滤波器需要估计数千个参数,会导致内存效率低下且耗费时间。)

网络根据问题特征预测卷积核,然后将它们与视觉特征图卷积。我们将多个问题指导的混合卷积模块,一个平均池层和一个分类器层堆叠在一起。语言引导卷积的输出是用于回答问题的融合文本-视觉特征图。为了提高存储效率和实验精度,我们利用分组卷积来基于问题特征预测卷积核的一部分。

3.1 Problem formulation问题表述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值