Hierarchical Question-Image Co-Attention

本文提出了一种层次化的Question-Image共注意力机制用于视觉问答任务,包括并行和交替两种实现方式。通过构建词、短语和问题级别的注意力地图,以及新的卷积池化策略,该模型在VQA和COCO-QA数据集上进行了验证,显示了其有效性和组件的重要性。
摘要由CSDN通过智能技术生成

主要做了四个方面的改进:

1、为VQA提出了一个co-attention mechanism,能够联合问题主导的visual attention和图片主导的question attention。用两种策略实现这个mechanism,分别为parallel co-attention 和 alternating co-attention。

2、提出了一个层架构来represent question。并且最终通过3个不同的levels组建image-question co-attended maps.分别为:word level , phrase level和question level。这些co-attended特征是递归的从word level到question level,从而获得最终的answer prediction。

3、在phrase level,提出了一个新的卷积池化策略(convolution-pooling strategy)来 选择合适的传送给question level的phrase sizes.

4、最后,在两个大的数据集合上对模型进行了验证,VQA数据集和COCO-QA数据集。还使用了ablation studies(消融研究)来量化不同组件在模型中的作用。

方法:

1. Notation

 

给定一个有T个word的question,它的表示形式为。。。,qt是第t个word的feature vector。q(t,w),q(t,p),q(t,s)分别代表在位置t处的word embeding, phrase embeding和question embeding。image feature表示为V={...},其中vn表示在位置n处的图像特征。每一层中的图像和问题的co-attention features表示为....。各个模型/层中的权重表示为W,对应不同的权重可以有不同的上标或下标。在下面的方程中,为了避免符号的混杂,忽略偏执。

2. Question Hierarchy(问题层面)

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值