Hierarchical Question-Image Co-Attention

最新推荐文章于 2022-11-16 13:44:43 发布

咕噜咕噜酱紫

最新推荐文章于 2022-11-16 13:44:43 发布

阅读量710

点赞数 2

分类专栏：图像问答

本文链接：https://blog.csdn.net/u010741000/article/details/83584776

版权

本文提出了一种层次化的Question-Image共注意力机制用于视觉问答任务，包括并行和交替两种实现方式。通过构建词、短语和问题级别的注意力地图，以及新的卷积池化策略，该模型在VQA和COCO-QA数据集上进行了验证，显示了其有效性和组件的重要性。

摘要由CSDN通过智能技术生成

主要做了四个方面的改进：

1、为VQA提出了一个co-attention mechanism，能够联合问题主导的visual attention和图片主导的question attention。用两种策略实现这个mechanism，分别为parallel co-attention 和 alternating co-attention。

2、提出了一个层架构来represent question。并且最终通过3个不同的levels组建image-question co-attended maps.分别为：word level , phrase level和question level。这些co-attended特征是递归的从word level到question level，从而获得最终的answer prediction。

3、在phrase level，提出了一个新的卷积池化策略（convolution-pooling strategy）来选择合适的传送给question level的phrase sizes.

4、最后，在两个大的数据集合上对模型进行了验证，VQA数据集和COCO-QA数据集。还使用了ablation studies(消融研究)来量化不同组件在模型中的作用。

方法：

1. Notation

给定一个有T个word的question，它的表示形式为。。。，qt是第t个word的feature vector。q(t,w),q(t,p),q(t,s)分别代表在位置t处的word embeding， phrase embeding和question embeding。image feature表示为V={...}，其中vn表示在位置n处的图像特征。每一层中的图像和问题的co-attention features表示为....。各个模型/层中的权重表示为W，对应不同的权重可以有不同的上标或下标。在下面的方程中，为了避免符号的混杂，忽略偏执。

2. Question Hierarchy(问题层面)

最低0.47元/天解锁文章

咕噜咕噜酱紫

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Hierarchical Question-Image Co-Attention

主要做了四个方面的改进：1、为VQA提出了一个co-attention mechanism，能够联合问题主导的visual attention和图片主导的question attention。用两种策略实现这个mechanism，分别为parallel co-attention 和 alternating co-attention。2、提出了一个层架构来represent question...
复制链接

扫一扫

专栏目录