Fast Cross-Modal Retrieval

Background

在之前的文章里小猪大致介绍了过了跨模态检索的流程,在本篇文章将重点介绍一些快速跨模态检索的方法,主要分为两类:基于哈希的与基于量化的。快速跨模态检索与传统跨模态检索的区别可以从下图看出,跨模态检索的主要任务是将两个模态的特征投影到共同的特征空间进行相似度的计算,特征空间的维度一般比较大(常见的是300维),而快速跨模态检索是希望对这样的高维度特征再次降维,比如16bit量化就是将300维再次压缩到16维,这样之后的相似度计算开销会大大减少,从而加速整个检索过程。而哈希与量化就是压缩的两种方式,哈希是通过再加一层非线性变换将feature进行直接映射到哈希空间,再用符号函数sign规整到{-1, 1}; 量化则是通过码本(Code Book)的方式,利用一级一级的类中心进行索引,将二进制索引拼接起来代表feature。
在这里插入图片描述


Problem Definition

这一章节我希望介绍cross-modal hashing retrieval(CMH)和cross-modal retrieval(CM)的不同之处,帮助读者能够对fast cross-modal retrieval所需要解决的问题有个清晰的逻辑流程。

Dataset

  • CM使用的数据集MSCOCO, Flickr30k比CMH使用的MIRFLICKR-25K, NUS-WIDE要复杂许多, 对于CM的数据集,是句子和图片的pair构成的,一张图片在整个数据集里只有5个注释它句子构成正确的匹配,数据集可表示为{ti, vi};对于CMH的数据集,是词组和图片以及label的pair构成的,其中词组是tag(MIRFLICKR-25K有1386种tag),就是对当前图片的标签,label是分类标签(MIRFLICKR-25K有24种标签),是人工注释的将该图片分到哪一大类的标签信息,数据集可以表示为{ti, vi, li}。值得注意的是,对于CMH数据集,一个图片和词组可能对应对个标签,例如一条在海边的狗会有动物、自然等标签。
  • CMH 数据集的划分为query set和database, 在database里训练,测试时用query set向database进行查询,计算MAP,P@1000等指标。对于无监督的任务,则不能使用{T,V,L}中的L,即S需要通过其他方式进行构造。

Evaluation

如何评判CM任务是否检索成功,就看输入的文本或者图片与检索出的图片或文本是不是对应的pair,如何评判CMH任务是否检索成功,就是看输入的文本或者图片与检索出的图片或文本有没有对应的label,多个类别中只要

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值