Coarse-to-Fine Reasoning for Visual Question Answering

pinkshell_1314

已于 2023-03-23 01:36:34 修改

阅读量359

点赞数

文章标签：深度学习计算机视觉

于 2023-03-17 02:44:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pinkshell_1314/article/details/129605274

版权

面向视觉问答的由粗到细推理方法

一、创新点

1. 提出了一个简单但有效的框架来从问题和图像中提取有意义的特征和谓词（predicate）。

提取的信息可以用来解释深度网络的决策。

2. 引入了一种新的由粗到细的推理（Coarse-to-Fine Reasoning）方法，以弥合问题和预测答案时的图像。

（谓词：关于图像/问题的对象、关系或属性的关键字。）

二、方法

三、过程

1. 图像嵌入

保留了原始的Faster R-CNN 多任务损失用于目标检测，然后为属性类预测器和关系类预测器增加了两个额外的交叉熵损失。然后，将提取的对象以及它们的属性和关系重新排列，形成谓词。

每个谓词遵循三种形式中的一种:

（1）单谓词<obj>;

（2）基于属性的谓词<attr,obj> ;

（3）和基于关系的谓词<obj1,rel,obj2>。

对于每个谓词中的每个单词，本文应用300-dim Glove word embedding来提取谓词特征。

2. 问题嵌入

为了提取问题特征，本文应用了600-dim Glove词嵌入伴随GRU来提取特征并学习问题中所有单词的依赖关系。

为了提取问题谓词，本文将整个问题通过一个停用词过滤器（stop-word filter）。然后对于每个问题谓词中的每个词，应用 300-dim Glove word embedding来提取谓词特征。

（这个过滤器是两个列表的组合。第一个列表包含基于NLTK的停用词列表中的单词，即在句子中不添加太多含义的单词。第二个列表包含出现频率小于10的所有问题中的单词。第二个列表中的单词被认为是罕见词，对于模型来说很难学习。）

3. 粗到细推理

3.1 信息过滤

信息过滤以特征和谓词作为输入。f 和 p 都是矩阵形式; nf , np 表示实例的数量(例如，roi的数量或谓词的数量);df, dp表示每个实例的维数。为了过滤掉特征 f 中的不必要信息，将谓词p作为监督信息。通过这种相互作用机制，计算一个加权映射，并应用该加权映射输出经过过滤后的信息。的计算方法如下:

其中，和是可学习的线性投影函数，分别投影和到和。给定权重图，过滤后的信息按式(3)计算：

其中为信道尺度向量（channel-scaled vector）;⊙表示哈达玛乘积。

在实际应用中，信息过滤模块同时应用于图像特征和谓词，以及问题特征和谓语实现信息过滤 Ψi 和 Ψq。为了简单起见，这里使用统一的符号 Ψ。

3.2 多模态学习

这个模块在粗粒度和细粒度两个层次上联合学习特征。粗粒度级学习问题特征与图像特征之间的交互，细粒度级学习从信息过滤步骤获得的图像过滤信息与问题之间的交互。

（1）粗粒度学习（Coarse-grained learning）

粗粒度学习的输入是图像特征和问题特征。粗粒度学习的输出是一个联合表示，其中是联合表示的维数。联接表示法的第k个元素计算如下:

其中, 为可学习因子矩阵;, 表示问题和图像的实数;为联合表示的双线性注意分布图;，表示每个实例的维度。下标k表示矩阵列的下标。由式(5)计算:

其中和是可学习的因子矩阵，且与和无关。

（2）细粒度学习

我们将相同的粗粒度学习过程应用于细粒度学习。唯一的区别是细粒度学习的输入是图像过滤信息Ψi和问题过滤信息Ψq。与式4、5类似，细粒度联合表示计算如下:

其中计算为:

3.3 语义推理

语义推理的目标是使用一个可学习的自适应权重，有选择地从粗粒度和细粒度学习步骤中学习信息，其中是可能答案的数量。在实践中，该模块以和为输入，然后输出对所有答案A的候选项的分布。

其中W和W '为粗粒度学习和细粒度学习的可学习自适应权重;τ(·)和τ '(·)是可学习的投影函数，分别将和投影到和。为了满足式(8)中的约束，我们对每个向量应用softmax函数;下标α表示答案列表A中某个答案的索引。

四、可视化

五、实验

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Coarse-to-Fine Reasoning for Visual Question Answering

面向视觉问答的由粗到细推理方法
复制链接

扫一扫

pinkshell_1314 CSDN认证博客专家 CSDN认证企业博客

码龄4年

20: 原创

131万+: 周排名

141万+: 总排名

1万+: 访问

: 等级

211: 积分

14: 粉丝

17: 获赞

5: 评论

39: 收藏

私信

关注

热门文章

最新评论

VQA v2.0数据集图像问题答案对
真的难 ×～×: 非常清晰明了(๑•̀ㅂ•́)و✧
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
qq_51109245: 博主博主求一个复现教程！！5555
GQA数据集简介
CSDN-Ada助手: 非常感谢您分享GQA数据集的介绍，这样的博客对于技术爱好者们来说是非常有价值的。我们也希望您能够继续分享更多的技术知识和经验，让更多人受益。可能您会考虑写一篇深度学习相关的技术博文，比如介绍如何使用GQA数据集进行图像识别或者目标检测等应用，这样的文章一定会受到很多人的欢迎。我们期待您的下一篇博客！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
m0_68648866: 代码复现时自己写的吗？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。