Hierarchical Question-Image Co-Attention for Visual Question Answering ——NIPS2016

Hierarchical Question-Image Co-Attention for Visual Question Answering ——NIPS2016

文章链接:
https://arxiv.org/pdf/1606.00061v1.pdf

Hierarchical Question-Image Co-Attention
for Visual Question Answering
概括:文章提出了和“Where to look”同样重要的“where to listen” 通过设计了一种全新的image region 和 分级文本互相guide互相attention的过程 得到image和文本互相attention后的feature 最后并列融合过分类器
方法:
1.1 通过每个词的1-hot feature 进行通过w2v 得到每个词的vector 作为word层面的featrure
1.2 之后该vector集合进行感受野为1-3(phrase长度)的卷积
在这里插入图片描述

得到prase feature 然后通过按相同起点的1-3卷积结果的maxpooling
在这里插入图片描述
得到以当前word为起点的1-3范围内最佳的phrase特征(即该短语的长度)
1.3 最后将得到的phrase特征过LSTM得到sentence层面的文本特征
在这里插入图片描述
1.4 图像特征使用的edge boxes 参考Where to look 文章
2. 将word、phrase、sentence三个层面的特征与图像的各region特征进行co-attention
在这里插入图片描述 C为亲和力矩阵 及两个向量之间的关系
之后没有取 在这里插入图片描述
而是 在这里插入图片描述保留了不同region对不同t的attention分布
该co-attention过程有平行和交替两种形式:最终通过
在这里插入图片描述 得到关于图像attention的文本总特征向量q及关于文本attention的图像总特征向量v
在这里插入图片描述

注意第2不分别在word phrase sentence 三个层面上进行 得到vw^ qw^ vp^ qp^ vs^ qs^
交替形式为图(b) 在这里插入图片描述 效果不如平行的 因为loss会在交替中累积

  1. 将三个层面的特征向量进行融合分类与answer匹配训练

此处 + 为并置的意思 在这里插入图片描述
实现了文本特征与图像特征的融合
得到的softmax分布可与answer的概率分布对应求Loss然后返回学习

收获:

  1. Q中只关注部分词汇会使模型具有更强的鲁棒性
  2. 基于Q分级(word、phrase、sentence)制度的提出可以更好地对英文通过不同层面进行解析
  3. 卷积操作可实现感知范围内特征的整合 包括image和text
  4. 融合过程可以同步进行也可以交替进行 目前同步进行损失较小 但成本较高
  5. 实验过程中可以通过消融方式 控制变量改变单一变量对比实验
  6. 文本分级后新的卷积方式 得到以当前word开头的后1—3个词的最佳特征
  7. Padding方向不太重要 因为可以通过训练得到对应权重 效果相同
  8. Pooling或取值时使用max其实就是提供了一个方向 max的并不一定对应最优的 只不过按照这个对应关系进行训练
    两种特征的融合可以通过作积的形式(向量之间就是内积,得到的就是attention 矩阵之间就是矩阵乘法 得到的就是邻接相关度矩阵)矩阵得到后有一种比取极值更好的方式得到某一attention max 在这里插入图片描述不取极值而保留分布 就没有舍弃其他非max的相关度 效果更全面
  9. 不同类型的向量放在同一行(并置)可以实现跨模态的融合
  10. Coco-QA所有answer都是single word
  11. N-gram指的长度为n的文本段

未解决:

  1. 交替co-attention时最开始用空的image引导q是否合理?交替顺序完全反过来是否可行?
  2. Phrase长度只设定为1-3是不是不够全面?

Inspiration:

  1. 每个英文单词有其意思 但每个汉字不一定有
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值