Hierarchical Question-Image Co-Attention for Visual Question Answering ——NIPS2016

最新推荐文章于 2022-05-24 20:54:45 发布

weixin_43364401

最新推荐文章于 2022-05-24 20:54:45 发布

阅读量395

点赞数 1

本文链接：https://blog.csdn.net/weixin_43364401/article/details/89165299

版权

Hierarchical Question-Image Co-Attention for Visual Question Answering ——NIPS2016

文章链接：
https://arxiv.org/pdf/1606.00061v1.pdf

Hierarchical Question-Image Co-Attention
for Visual Question Answering
概括：文章提出了和“Where to look”同样重要的“where to listen” 通过设计了一种全新的image region 和分级文本互相guide互相attention的过程得到image和文本互相attention后的feature 最后并列融合过分类器
方法：
1.1 通过每个词的1-hot feature 进行通过w2v 得到每个词的vector 作为word层面的featrure
1.2 之后该vector集合进行感受野为1-3（phrase长度）的卷积
在这里插入图片描述

得到prase feature 然后通过按相同起点的1-3卷积结果的maxpooling
在这里插入图片描述
得到以当前word为起点的1-3范围内最佳的phrase特征（即该短语的长度）
1.3 最后将得到的phrase特征过LSTM得到sentence层面的文本特征

1.4 图像特征使用的edge boxes 参考Where to look 文章
2. 将word、phrase、sentence三个层面的特征与图像的各region特征进行co-attention
在这里插入图片描述 C为亲和力矩阵及两个向量之间的关系
之后没有取
而是保留了不同region对不同t的attention分布
该co-attention过程有平行和交替两种形式：最终通过
得到关于图像attention的文本总特征向量q^{及关于文本attention的图像总特征向量v}
在这里插入图片描述

注意第2不分别在word phrase sentence 三个层面上进行得到vw^ qw^ vp^ qp^ vs^ qs^
交替形式为图（b）在这里插入图片描述效果不如平行的因为loss会在交替中累积

将三个层面的特征向量进行融合分类与answer匹配训练

此处 + 为并置的意思在这里插入图片描述
实现了文本特征与图像特征的融合
得到的softmax分布可与answer的概率分布对应求Loss然后返回学习

收获：

Q中只关注部分词汇会使模型具有更强的鲁棒性
基于Q分级（word、phrase、sentence）制度的提出可以更好地对英文通过不同层面进行解析
卷积操作可实现感知范围内特征的整合包括image和text
融合过程可以同步进行也可以交替进行目前同步进行损失较小但成本较高
实验过程中可以通过消融方式控制变量改变单一变量对比实验
文本分级后新的卷积方式得到以当前word开头的后1—3个词的最佳特征
Padding方向不太重要因为可以通过训练得到对应权重效果相同
Pooling或取值时使用max其实就是提供了一个方向 max的并不一定对应最优的只不过按照这个对应关系进行训练
两种特征的融合可以通过作积的形式（向量之间就是内积，得到的就是attention 矩阵之间就是矩阵乘法得到的就是邻接相关度矩阵）矩阵得到后有一种比取极值更好的方式得到某一attention max 不取极值而保留分布就没有舍弃其他非max的相关度效果更全面
不同类型的向量放在同一行（并置）可以实现跨模态的融合
Coco-QA所有answer都是single word
N-gram指的长度为n的文本段

未解决：

交替co-attention时最开始用空的image引导q是否合理？交替顺序完全反过来是否可行？
Phrase长度只设定为1-3是不是不够全面？

Inspiration：

每个英文单词有其意思但每个汉字不一定有

weixin_43364401

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hierarchical Question-Image Co-Attention for Visual Question Answering ——NIPS2016

Hierarchical Question-Image Co-Attention for Visual Question Answering ——2016NIPS文章链接：https://arxiv.org/pdf/1606.00061v1.pdfHierarchical Question-Image Co-Attentionfor Visual Question Answering概括...
复制链接

扫一扫