Hierarchical Co-Attention for Visual Question Answering心得体会

最新推荐文章于 2024-03-25 16:32:19 发布

untitled713

最新推荐文章于 2024-03-25 16:32:19 发布

阅读量340

点赞数

文章标签： VQA co-attention

本文链接：https://blog.csdn.net/untitled_/article/details/103483059

版权

本文深入探讨了《Hierarchical Co-Attention for Visual Question Answering》论文，介绍了一种新颖的多模态注意力模型，该模型在VQA任务中结合了视觉和问题的共同注意力，形成层次结构，分别在单词、短语和问题级别进行信息捕获。通过实验，该模型在VQA和COCO-QA数据集上表现出优越性能。

摘要由CSDN通过智能技术生成

前阵子研读了一篇文章：《Hierarchical Co-Attention for Visual Question Answering》作为VQA学习的第一篇入门文献，并在此之前浏览了余俊老师发表的《视觉问答技术研究》这篇综述视觉问答技术研究，对视觉问答的注意力模型有了一些浅显的了解。
论文链接：Hierarchical Co-Attention for Visual Question Answering
代码链接：https://github.com/jiasenlu/HieCoAttenVQA
一、文章引入
视觉问答（VQA）已经成为学术界和行业中一个突出的多学科研究问题。为了正确回答有关图像的视觉问题，机器需要同时理解图像和问题。最近，针对VQA探索了基于视觉注意的模型，其中，注意机制通常会生成突出显示与回答问题相关的图像区域的空间图。
到目前为止，文献中有关VQA的所有注意力模型都集中在识别“在哪里看”或视觉注意力的问题上。在本文中，作者认为识别“要听哪些单词”或提问注意力的问题同样重要。除了对视觉注意进行推理之外，本文还解决了问题关注的问题，特别是，文中提出了一种新颖的多模式注意具有以下两个独特功能的VQA模型：
co-attention：本文提出了一种新颖的机制来共同引起视觉注意和问题注意，将其称为共同注意。与以前的只关注视觉注意力的作品不同，文中的模型在图像和问题之间具有自然的对称性，即图像表示用于指导问题注意，而问题表示用于指导图像注意。
Question Hierarchy：本文构建了一个层次结构，该结构在三个级别上共同参与图像和问题：（a）单词级别，（b）短语级别和（c）问题级别。在单词级别，通过嵌入矩阵将单词嵌入到向量空间中；在短语级别，使用一维卷积神经网络（CNN）来捕获单字组，二元组和三字组中包含的信息。具体来说，我们将单词表示与支持不同的时间过滤器进行卷积&#x

最低0.47元/天解锁文章

untitled713

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hierarchical Co-Attention for Visual Question Answering心得体会

Hierarchical Co-Attention for Visual Question Answering
复制链接

扫一扫