Context-Aware Attention Network for Image-Text Retrieval论文笔记

Context-Aware Attention Network for Image-Text Retrieval
该论文认为,不同的查询词应该要对模态内的特征表达产生影响。因此提出了一个结构CAAN并且提出了一种基于语义的注意力机制SA。

CANN结构
论文首先使用FasterRCNN提取region然后resnet提取visual feature,使用bigru提取textual feature,将往前和往后的textual feature直接相加起来。

然后进行基于上下文的注意力操作。计算一个相似矩阵H,对visual axis进行softmax得到所有regions基于其region和words的注意力矩阵,对于sentence也进行相同的操作得到其模态间注意力矩阵。






接下作者提出了基于语义的注意力机制SA来根据query调整intra modal attention的权重。大致思想是,当特征A和特征B与另一个模态的归一化注意力向量相似,那它们之间应该具有更高的自注意力权重。

接着使用inter attention和intra attention分别求得text match img 和img match text的注意力权重和经过注意力机制后的特征:



然后通过内积来计算sentence和img之间的相似度。

两点疑问
该论文的方法优于同时期的其他非Bert模型。但是在与Bert模型对比的时候,作者说它的方法优点在于运行比基于Bert的模型更快,参数更小,但是无论是inter attention或者是intra attention都使用到了不同模态的信息,那岂不是在检索中需要拿着查询词对整个数据集进行一次计算。。。这样按理来说对于检索任务不应该是挺不合理的吗。。
还有最后作者提了一嘴objective function,不知道Losshard那部分是不是写错了什么地方。。。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值