Hierarchical Question-Image Co-Attention for Visual Question Answering ——NIPS2016
文章链接:
https://arxiv.org/pdf/1606.00061v1.pdf
Hierarchical Question-Image Co-Attention
for Visual Question Answering
概括:文章提出了和“Where to look”同样重要的“where to listen” 通过设计了一种全新的image region 和 分级文本互相guide互相attention的过程 得到image和文本互相attention后的feature 最后并列融合过分类器
方法:
1.1 通过每个词的1-hot feature 进行通过w2v 得到每个词的vector 作为word层面的featrure
1.2 之后该vector集合进行感受野为1-3(phrase长度)的卷积
得到prase feature 然后通过按相同起点的1-3卷积结果的maxpooling
得到以当前word为起点的1-3范围内最佳的phrase特征(即该短语的长度)
1.3 最后将得到的phrase特征过LSTM得到sentence层面的文本特征
1.4 图像特征使用的edge boxes 参考Where to look 文章
2. 将word、phrase、sentence三个层面的特征与图像的各region特征进行co-attention
C为亲和力矩阵 及两个向量之间的关系
之后没有取
而是 保留了不同region对不同t的attention分布
该co-attention过程有平行和交替两种形式:最终通过
得到关于图像attention的文本总特征向量q及关于文本attention的图像总特征向量v
注意第2不分别在word phrase sentence 三个层面上进行 得到vw^ qw^ vp^ qp^ vs^ qs^
交替形式为图(b) 效果不如平行的 因为loss会在交替中累积
- 将三个层面的特征向量进行融合分类与answer匹配训练
此处 + 为并置的意思
实现了文本特征与图像特征的融合
得到的softmax分布可与answer的概率分布对应求Loss然后返回学习
收获:
- Q中只关注部分词汇会使模型具有更强的鲁棒性
- 基于Q分级(word、phrase、sentence)制度的提出可以更好地对英文通过不同层面进行解析
- 卷积操作可实现感知范围内特征的整合 包括image和text
- 融合过程可以同步进行也可以交替进行 目前同步进行损失较小 但成本较高
- 实验过程中可以通过消融方式 控制变量改变单一变量对比实验
- 文本分级后新的卷积方式 得到以当前word开头的后1—3个词的最佳特征
- Padding方向不太重要 因为可以通过训练得到对应权重 效果相同
- Pooling或取值时使用max其实就是提供了一个方向 max的并不一定对应最优的 只不过按照这个对应关系进行训练
两种特征的融合可以通过作积的形式(向量之间就是内积,得到的就是attention 矩阵之间就是矩阵乘法 得到的就是邻接相关度矩阵)矩阵得到后有一种比取极值更好的方式得到某一attention max 不取极值而保留分布 就没有舍弃其他非max的相关度 效果更全面 - 不同类型的向量放在同一行(并置)可以实现跨模态的融合
- Coco-QA所有answer都是single word
- N-gram指的长度为n的文本段
未解决:
- 交替co-attention时最开始用空的image引导q是否合理?交替顺序完全反过来是否可行?
- Phrase长度只设定为1-3是不是不够全面?
Inspiration:
- 每个英文单词有其意思 但每个汉字不一定有