Hashing based Efficient Inference for Image-Text Matching
motivation
这篇论文认为今年提出的image-text matching方法,虽然达到了很好的效果,但是由于在匹配的时候需要同时输入查询词和被查询词到跨模态注意力机制中,这将消耗大量的时间,在实际使用的时候是不可接受的,因此提出了HEI模块为现存的cross model retrieval在不影响性能的前提下加快检索速度。(最近我也想能不能从这边着手没想到就碰到了这篇论文。。。)
Contribution
第一个使用hashing来加速cross model retrieval 模型的方法(as they acknowledge。。。),在加速的同时还没有损害到模型性能。
Method
从一般的具有局部细粒度对齐的跨模态检索任务中取得三部分数据,分别是region feature of image、word feature of sentence和cross model attention score。(不过也可能是我理解不准确,可能image和sentence的feature是HEI module经过了重新训练的,它这个图挺有误导性的也没有给代码我只能靠猜了。)
然后通过注意力机制对visual feature vi和sentence feature ui进行以下处理:
再然后计算一个针对哈希码匹配和使用cross model attention(sij是通过嵌入的模型中的跨模态注意力机制产生的)软监督产生的loss:
然后模块的部分就完了
笔记
使用计算更加简便的模型来对数据集进行粗提取这个思路还挺不错的,虽然方法很简单。之前总是吐槽一些顶会论文的符号没有表达清楚,不过这篇论文的符号描述就过于详细。。。