Where To Look: Focus Regions for Visual Question Answering——CVPR2016

最新推荐文章于 2022-05-23 18:30:51 发布

weixin_43364401

最新推荐文章于 2022-05-23 18:30:51 发布

阅读量483

点赞数

本文链接：https://blog.csdn.net/weixin_43364401/article/details/89166122

版权

Where To Look: Focus Regions for Visual Question Answering——CVPR2016

文章链接：
https://arxiv.org/pdf/1511.07394.pdf

Where To Look: Focus Regions for Visual Question Answering
概括：个人感觉where to look 的地位有点相当于VQA 方向attention的始祖第一次提出了基于QA的图像region attention 因为文章为2015的比较早因此使用方法还存在不少瑕疵：具体做法为该网络只适用于mc类型的VQA 输入QA对儿并置提取特征图像过边缘检测得100分区过cnn得特征将每个region的向量与QA特征向量作内积得attention系数权值最后与文本特征并置加权求和得weighted average features 然后过两个层得score 训练时的loss 用的 hinge loss
方法：
网络结构图
在这里插入图片描述

Image features：通过edge boxes（边缘检测）预训练网络得到top99 region，然后全图算第100个region 注意：其中联合重叠阈值设定决定了区域的大小本task region稍微小点好作者猜测增加region number可能能够提升性能用的VGG 取的最后一个隐藏层4096d和前一个softmax层1000d并置共5096d 因为1000那个包含物体类别信息
Language representation：首先将每个word通过Google News dataset进行预训练的w2v得到单词representation（相同词有相近的向量特征是open-ended前提）之后通过4个Bin得到四种question sentence representation（而不是LSTM）
Bin1：问题前两个词特征的平均
Bin2：主语名词特征
Bin3：其他所有名词特征的平均
Bin4：去掉限定词和冠词之后的剩余词特征的平均
Bin1+Bin2+Bin3+Bin4+answer representation = 1500维这就是整个的representation
Image特征和QA特征都FC降维到900 然后点积后softmax成region probability sj：

然后
之后attention*并置向量
最后的向量z过一个两层的fc后输出一个score 然后利用Hingeloss返回梯度

收获：
1．该方法因为输入要有QA pair 所以只能选择mc类型问题因为open-ended类型问题没有answer
2． Hinge loss：基于margin的loss 简单来说就是两个结果之间的距离最少要大于一个值margin（此处为正确答案的得分和得分最高的错误答案之间的得分差） loss为这个值与训练时得到的margin值的差在这里插入图片描述
3．它的灵感来源于caption中的attention 因此之后的灵感发觉可多从其他类似任务考虑
4．该方法提出了一种新的表征QA的方式：bin5 即从4个方面对Q进行300维的表征最后接个answer的300维特征然后concatenation（具体见方法）
5． Edge Boxes方法可获得image region 其中的联合重叠阈值可决定region的大小
6．相似词有相似的representation是open-ended VQA 的前提但是对于本文类型的打分网络不需要（因为没有多个词的比较）
7．点积的前提是两向量维度相等
8．点积加权啊求和的形式优于取最值salient
9． Vgg最后一个隐藏层是4096维之前的一个softmax是1000维含有直接表达类别的信息
10．取region和不取region的区别在于所有region并不能代表全图；
11．需要精准定位的问题类型该方法优势较大；需要技术或全局关系的使用全图最好（包含于论文方法中）；需要更多先验知识的基于文本更好
Q：
1.为什么这里bow比lstm好？
2.bin的方式为什么是前两个词？

weixin_43364401

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Where To Look: Focus Regions for Visual Question Answering——CVPR2016

Where To Look: Focus Regions for Visual Question Answering——CVPR2016文章链接：https://arxiv.org/pdf/1511.07394.pdfWhere To Look: Focus Regions for Visual Question Answering概括：个人感觉where to look 的地位有点相当于...
复制链接

扫一扫