论文解读：Feature Enhancement in Attention for Visual Question Answering

最新推荐文章于 2023-03-01 20:09:59 发布

yealxxy

最新推荐文章于 2023-03-01 20:09:59 发布

阅读量660

点赞数

分类专栏： vqa问题文章标签： vqa问题图像问答

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014248127/article/details/85177943

版权

vqa问题专栏收录该内容

12 篇文章 16 订阅

订阅专栏

这是关于VQA问题的第十篇系列文章。本篇文章将介绍论文：主要思想；模型方法；主要贡献。有兴趣可以查看原文：Feature Enhancement in Attention for Visual Question Answering

1，主要思想：

这是2018年顶会（International Joint Conference on Artificial Intelligence ）的一篇关于vqa的论文。本文提出vqa问题中视觉和文本表示空间的不同对结果有影响。为了可以更好的应用注意力机制，作者提出在特征上下功夫，即是，如何更有效的提取视觉信息。主要特征加强办法有：（注意，本文有两个容易混淆的概念：区域表示和区域语义表示，区域表示就是我们通常理解的视觉特征，区域语义表示是本文提出给区域的文本表示）

利用区域语义表示计算attention权重：区域语义表示和问题更加相关，
利用层次表示丰富区域表示：层次提取视觉特征
改善区域语义表示：区域语义表示还可以附有更多的信息，可以加入概率信息，而不是单纯的语义

2，模型结构

a.特征增强模型的概述

在这里插入图片描述

feature encoding part：采用GRU对文本进行编码，采用Faster R-CNN（bottom-up attention model）提取视觉特征k个。
attention part：权重的计算过程，R部分是后面再确定的。
Feature Fusion Part：特征融合
预测输出：

b.第一种视觉特征提取办法：V/V: Conventional Attention（图a）

也就是用图像计算与问题的相关性权重，并对图像进行加权求和。
在这里插入图片描述

c.第二种视觉特征提取办法：T/V: Region Semantic Representation（图b）

T:图像语义空间表示，即是，对图像区域进行预测类别标签，用对应的词向量作为图像区域语义表示，然后用这个和问题表示计算权重。后面步骤一样

d. 第三种视觉特征提取办法：TV/V and TV/TV: Representation Enrichment using Multi-Level Features

语义表达有时候过于抽象，为了能够获取更加具体的信息，把语义信息和图像信息合并起来与问题表示计算权重。同理，在特征融合的时候也可以同时考虑语义表示和图像特征。（多级别的图像特征使用）
在这里插入图片描述

e.第四种视觉特征提取办法：rTV/V and rTV/rTV: Semantic Representation Refinement

有时候我们在类别标签预测的时候，并不是很准确，所以预测时，前面topk的预测信息都应该有用，所以可以在语义表示的时候加入概率特征。
在这里插入图片描述

3,主要贡献

提出了很多特征加强的技术，这是个比较有特色的创新
加入概率信息提取丰富的语义表示

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
论文解读：Feature Enhancement in Attention for Visual Question Answering

这是关于VQA问题的第十篇系列文章。本篇文章将介绍论文：主要思想；模型方法；主要贡献。有兴趣可以查看原文：Feature Enhancement in Attention for Visual Question Answering1，主要思想：这是2018年顶会（International Joint Conference on Artificial Intelligence ）的一篇关于vq...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。