《Deep Attention Neural Tensor Network for Visual Question Answering》视觉问答的深度注意神经张量网络论文理解

最新推荐文章于 2021-11-13 16:12:58 发布

陌上pamper

最新推荐文章于 2021-11-13 16:12:58 发布

阅读量631

点赞数

本文链接：https://blog.csdn.net/pamper_xu/article/details/103386967

版权

本文提出了一种名为DA-NTN的深度注意神经张量网络，用于视觉问答任务。DA-NTN通过双线性特征对图像、问题和答案进行建模，利用注意力模块进行推理，并通过回归的标签分布学习进行优化，从而提高模型的性能和收敛速度。

摘要由CSDN通过智能技术生成

一、介绍

在本文中，我们提出了一种新颖的深度关注神经张量网络（DA-NTN）用于视觉问题回答，它可以发现基于张量表示的图像，问题和答案之间的联合相关性。
首先，我们通过双线性特征对成对交互（例如，图像和问题）中的一个建模，进一步用三维（例如，答案）将其编码为双线性张量积的三元组。
其次，我们通过不同的答案和问题类型分解不同的三元组的相关性，并进一步在张量上提出一个切片式注意模块，以选择最具判别力的推理过程进行推理。
第三，我们通过学习带有 KL 散度损失的标签回归来优化建议的 DA-NTN。这样的设计使得可扩展的训练和在大量答案集上的快速收敛成为可能。
在这篇论文中我们将答案嵌入学习引入到我们的方法中，有三个目的。首先，我们希望对问题答案三元组之间的关系进行建模，以帮助推理。其次，答案嵌入可能会纠正问题的误解，尤其是对于复杂的句法结构的问题。第三，答案嵌入可以帮助确定问题的类型并决定使用哪种推理过程。

二、模型

2.1开放式可视问答框架的体系结构

红色框中的结构是生成问题表示Vq和图像与问题特征向量Vqi融合的基本模型，两个蓝盒中的结构是我们提出的深层关注神经张量网络，利用蓝盒神经张量网络来度量图像-问题-答案三元组之间的相关性。

VQA任务的目标是提供一个给出图像 I ∈ I（张量）和相应的问题 q ∈ Q（张量），先前的大部分工作都把开放的VQA看作是一项分类任务：
在这里插入图片描述
其中θ表示模型的全部参数集，A（张量）为

最低0.47元/天解锁文章

陌上pamper

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫