《Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge》论文解读

近日认真研读了一篇关于VQA的文章《Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge》。作为关于VQA问题的第十二篇系列文章,这篇论文具有很强的指导意义,同时这也是本人第一篇涉及深度学习的入门文章,在此写下一些个人心得体会,笔者不才,对于一些细节的解读可能不那么准确,还望各位批评指正。本文将介绍:主要思想;模型方法;。有兴趣可以查看原文:Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge

1.简述注意力机制

注意力机制(Attention Mechanism)源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息,上述机制通常被称为注意力机制。下面我们简单介绍一下人类的注意力机制。
在这里插入图片描述图一:人类的注意力机制
视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,可以看到图中人的面部、文章的句首等位置都发红,表明这里是视觉系统更为关注的目标,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。
深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似,核心目标也是从众多信息中选择出对当前任务目标更关键的信息。
注意力一般分为两种:一种是自上而下的有意识的注意力,称为聚焦式(focus)注意力。聚焦式注意力是指有预定目的、依赖任务的、主动有意识地聚焦于某一对象的注意力(如寻找某物);另一种是自下而上的无意识的注意力,称为基于显著性(saliency-based)的注意力。基于显著性的注意力是由外界刺激驱动的注意力,不需要主动干预,也和任务无关,属于纯视觉前馈注意力。
在该篇论文的方法中,作者提出一种自上而下与自下而上相结合的注意力模型方法,应用于视觉场景理解和视觉问答系统的相关问题。其中基于自下而上的关注模型(一般使用Faster R-CNN)用于提取图像中的兴趣区域,获取对象特征;而基于自上而下的注意力模型用于加上注意力特征所对应的权重,以此实现对视觉图像的深入理解。该模型在2017年VQA挑战赛中获得了第一名。下面也将详细讲解两种注意力机制。

2.Proposed model

VQA背景

VQA 全称是 visual question answering。形式是给一个图片和一个关于这张图片的问题,输出一个答案。
在这里插入图片描述 图二:Examples of training questions and their correct answer from the VQA v2 dataset [14].

VQA V2数据集

VQA 这个数据集来自 Gatech 和微软,由于这个数据集很新,所以还存在一些问题:你可以用简单的通过死记硬背来回答对很多问题,获得 ok 的效果。比如说 yes/no 问题,如果永远回答 yes,你就能答对大部分。所以这个数据集的答案有一定先验,不是很平衡。进而发布了 VQA-v2 的版本,这个版本比之前的版本又大了一倍。一共有 650000 的问题答案对,涉及 120000 幅不同的图片。这个新的数据库主要解决了答案不平衡的问题。对于同一个问题,数据集中保证有两张不同的图片,使得对于这个问题的答案是不同的。
在这里插入图片描述 图三:VQA V2数据集解决了不平衡问题,示例。
这篇论文中,VQA被看做了一个多标签分类问题࿰

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值