论文解读:Feature Enhancement in Attention for Visual Question Answering

这是关于VQA问题的第十篇系列文章。本篇文章将介绍论文:主要思想;模型方法;主要贡献。有兴趣可以查看原文:Feature Enhancement in Attention for Visual Question Answering

1,主要思想:

这是2018年顶会(International Joint Conference on Artificial Intelligence )的一篇关于vqa的论文。本文提出vqa问题中视觉和文本表示空间的不同对结果有影响。为了可以更好的应用注意力机制,作者提出在特征上下功夫,即是,如何更有效的提取视觉信息。主要特征加强办法有:(注意,本文有两个容易混淆的概念:区域表示和区域语义表示,区域表示就是我们通常理解的视觉特征,区域语义表示是本文提出给区域的文本表示)

  • 利用区域语义表示计算attention权重:区域语义表示和问题更加相关,
  • 利用层次表示丰富区域表示:层次提取视觉特征
  • 改善区域语义表示:区域语义表示还可以附有更多的信息,可以加入概率信息,而不是单纯的语义

2,模型结构

a.特征增强模型的概述

在这里插入图片描述

  • feature encoding part:采用GRU对文本进行编码,采用Faster R-CNN(bottom-up attention model)提取视觉特征k个。

  • attention part:权重的计算过程,R部分是后面再确定的。
    在这里插入图片描述
    在这里插入图片描述

  • Feature Fusion Part:特征融合
    在这里插入图片描述

  • 预测输出:
    在这里插入图片描述

b.第一种视觉特征提取办法:V/V: Conventional Attention(图a)

也就是用图像计算与问题的相关性权重,并对图像进行加权求和。
在这里插入图片描述

c.第二种视觉特征提取办法:T/V: Region Semantic Representation(图b)

T:图像语义空间表示,即是,对图像区域进行预测类别标签,用对应的词向量作为图像区域语义表示,然后用这个和问题表示计算权重。后面步骤一样

d. 第三种视觉特征提取办法:TV/V and TV/TV: Representation Enrichment using Multi-Level Features

语义表达有时候过于抽象,为了能够获取更加具体的信息,把语义信息和图像信息合并起来与问题表示计算权重。同理,在特征融合的时候也可以同时考虑语义表示和图像特征。(多级别的图像特征使用)
在这里插入图片描述
在这里插入图片描述

e.第四种视觉特征提取办法:rTV/V and rTV/rTV: Semantic Representation Refinement

有时候我们在类别标签预测的时候,并不是很准确,所以预测时,前面topk的预测信息都应该有用,所以可以在语义表示的时候加入概率特征。
在这里插入图片描述

3,主要贡献

  • 提出了很多特征加强的技术,这是个比较有特色的创新
  • 加入概率信息提取丰富的语义表示
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值