Context-Aware Attention Network for Image-Text Retrieval
该论文认为,不同的查询词应该要对模态内的特征表达产生影响。因此提出了一个结构CAAN并且提出了一种基于语义的注意力机制SA。
论文首先使用FasterRCNN提取region然后resnet提取visual feature,使用bigru提取textual feature,将往前和往后的textual feature直接相加起来。
然后进行基于上下文的注意力操作。计算一个相似矩阵H,对visual axis进行softmax得到所有regions基于其region和words的注意力矩阵,对于sentence也进行相同的操作得到其模态间注意力矩阵。
接下作者提出了基于语义的注意力机制SA来根据query调整intra modal attention的权重。大致思想是,当特征A和特征B与另一个模态的归一化注意力向量相似,那它们之间应该具有更高的自注意力权重。
接着使用inter attention和intra attention分别求得text match img 和img match text的注意力权重和经过注意力机制后的特征:
然后通过内积来计算sentence和img之间的相似度。
两点疑问
该论文的方法优于同时期的其他非Bert模型。但是在与Bert模型对比的时候,作者说它的方法优点在于运行比基于Bert的模型更快,参数更小,但是无论是inter attention或者是intra attention都使用到了不同模态的信息,那岂不是在检索中需要拿着查询词对整个数据集进行一次计算。。。这样按理来说对于检索任务不应该是挺不合理的吗。。
还有最后作者提了一嘴objective function,不知道Losshard那部分是不是写错了什么地方。。。