Hierarchical Co-Attention for Visual Question Answering心得体会

本文深入探讨了《Hierarchical Co-Attention for Visual Question Answering》论文,介绍了一种新颖的多模态注意力模型,该模型在VQA任务中结合了视觉和问题的共同注意力,形成层次结构,分别在单词、短语和问题级别进行信息捕获。通过实验,该模型在VQA和COCO-QA数据集上表现出优越性能。
摘要由CSDN通过智能技术生成

前阵子研读了一篇文章:《Hierarchical Co-Attention for Visual Question Answering》作为VQA学习的第一篇入门文献,并在此之前浏览了余俊老师发表的《视觉问答技术研究》这篇综述视觉问答技术研究,对视觉问答的注意力模型有了一些浅显的了解。
论文链接:Hierarchical Co-Attention for Visual Question Answering
代码链接:https://github.com/jiasenlu/HieCoAttenVQA
一、文章引入
视觉问答(VQA)已经成为学术界和行业中一个突出的多学科研究问题。为了正确回答有关图像的视觉问题,机器需要同时理解图像和问题。最近,针对VQA探索了基于视觉注意的模型,其中,注意机制通常会生成突出显示与回答问题相关的图像区域的空间图。
到目前为止,文献中有关VQA的所有注意力模型都集中在识别“在哪里看”或视觉注意力的问题上。在本文中,作者认为识别“要听哪些单词”或提问注意力的问题同样重要。除了对视觉注意进行推理之外,本文还解决了问题关注的问题,特别是,文中提出了一种新颖的多模式注意具有以下两个独特功能的VQA模型:
co-attention:本文提出了一种新颖的机制来共同引起视觉注意和问题注意,将其称为共同注意。 与以前的只关注视觉注意力的作品不同,文中的模型在图像和问题之间具有自然的对称性,即图像表示用于指导问题注意,而问题表示用于指导图像注意。
Question Hierarchy:本文构建了一个层次结构,该结构在三个级别上共同参与图像和问题:(a)单词级别,(b)短语级别和(c)问题级别。 在单词级别,通过嵌入矩阵将单词嵌入到向量空间中; 在短语级别,使用一维卷积神经网络(CNN)来捕获单字组,二元组和三字组中包含的信息。 具体来说,我们将单词表示与支持不同的时间过滤器进行卷积&#x

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值