Hashing based Efficient Inference for Image-Text Matching论文笔记

Hashing based Efficient Inference for Image-Text Matching

motivation

这篇论文认为今年提出的image-text matching方法,虽然达到了很好的效果,但是由于在匹配的时候需要同时输入查询词和被查询词到跨模态注意力机制中,这将消耗大量的时间,在实际使用的时候是不可接受的,因此提出了HEI模块为现存的cross model retrieval在不影响性能的前提下加快检索速度。(最近我也想能不能从这边着手没想到就碰到了这篇论文。。。)

Contribution

第一个使用hashing来加速cross model retrieval 模型的方法(as they acknowledge。。。),在加速的同时还没有损害到模型性能。

Method

从一般的具有局部细粒度对齐的跨模态检索任务中取得三部分数据,分别是region feature of image、word feature of sentence和cross model attention score。(不过也可能是我理解不准确,可能image和sentence的feature是HEI module经过了重新训练的,它这个图挺有误导性的也没有给代码我只能靠猜了。)

然后通过注意力机制对visual feature vi和sentence feature ui进行以下处理:

再然后计算一个针对哈希码匹配和使用cross model attention(sij是通过嵌入的模型中的跨模态注意力机制产生的)软监督产生的loss:

然后模块的部分就完了

笔记

使用计算更加简便的模型来对数据集进行粗提取这个思路还挺不错的,虽然方法很简单。之前总是吐槽一些顶会论文的符号没有表达清楚,不过这篇论文的符号描述就过于详细。。。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值