Context-Aware Attention Network for Image-Text Retrieval论文笔记

最新推荐文章于 2024-03-06 11:06:38 发布

weixin_42863990

最新推荐文章于 2024-03-06 11:06:38 发布

阅读量642

点赞数

文章标签：自然语言处理深度学习神经网络

本文链接：https://blog.csdn.net/weixin_42863990/article/details/120116044

版权

Context-Aware Attention Network for Image-Text Retrieval
该论文认为，不同的查询词应该要对模态内的特征表达产生影响。因此提出了一个结构CAAN并且提出了一种基于语义的注意力机制SA。

CANN结构
论文首先使用FasterRCNN提取region然后resnet提取visual feature，使用bigru提取textual feature，将往前和往后的textual feature直接相加起来。

然后进行基于上下文的注意力操作。计算一个相似矩阵H，对visual axis进行softmax得到所有regions基于其region和words的注意力矩阵，对于sentence也进行相同的操作得到其模态间注意力矩阵。

接下作者提出了基于语义的注意力机制SA来根据query调整intra modal attention的权重。大致思想是，当特征A和特征B与另一个模态的归一化注意力向量相似，那它们之间应该具有更高的自注意力权重。

接着使用inter attention和intra attention分别求得text match img 和img match text的注意力权重和经过注意力机制后的特征：

然后通过内积来计算sentence和img之间的相似度。

两点疑问
该论文的方法优于同时期的其他非Bert模型。但是在与Bert模型对比的时候，作者说它的方法优点在于运行比基于Bert的模型更快，参数更小，但是无论是inter attention或者是intra attention都使用到了不同模态的信息，那岂不是在检索中需要拿着查询词对整个数据集进行一次计算。。。这样按理来说对于检索任务不应该是挺不合理的吗。。
还有最后作者提了一嘴objective function，不知道Losshard那部分是不是写错了什么地方。。。

weixin_42863990

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Context-Aware Attention Network for Image-Text Retrieval论文笔记

Context-Aware Attention Network for Image-Text Retrieval该论文认为，不同的查询词应该要对模态内的特征表达产生影响。因此提出了一个结构CAAN并且提出了一种基于语义的注意力机制SA。论文首先使用FasterRCNN提取region然后resnet提取visual feature，使用bigru提取textual feature，将往前和往后的textual feature直接相加起来。然后进行基于上下文的注意力操作。计算一个相似矩阵H，对visu
复制链接

扫一扫