Fast Cross-Modal Retrieval

最新推荐文章于 2022-03-18 22:22:43 发布

Let's Go G2

最新推荐文章于 2022-03-18 22:22:43 发布

阅读量378

点赞数 1

文章标签：算法人工智能

本文链接：https://blog.csdn.net/qq_41831542/article/details/109547882

版权

Fast Cross-Modal Retrieval

Background
Problem Definition
- Dataset
- Evaluation
Papers

Background

在之前的文章里小猪大致介绍了过了跨模态检索的流程，在本篇文章将重点介绍一些快速跨模态检索的方法，主要分为两类：基于哈希的与基于量化的。快速跨模态检索与传统跨模态检索的区别可以从下图看出，跨模态检索的主要任务是将两个模态的特征投影到共同的特征空间进行相似度的计算，特征空间的维度一般比较大（常见的是300维），而快速跨模态检索是希望对这样的高维度特征再次降维，比如16bit量化就是将300维再次压缩到16维，这样之后的相似度计算开销会大大减少，从而加速整个检索过程。而哈希与量化就是压缩的两种方式，哈希是通过再加一层非线性变换将feature进行直接映射到哈希空间，再用符号函数sign规整到{-1, 1}; 量化则是通过码本(Code Book)的方式，利用一级一级的类中心进行索引，将二进制索引拼接起来代表feature。
在这里插入图片描述

Problem Definition

这一章节我希望介绍cross-modal hashing retrieval(CMH)和cross-modal retrieval(CM)的不同之处，帮助读者能够对fast cross-modal retrieval所需要解决的问题有个清晰的逻辑流程。

Dataset

CM使用的数据集MSCOCO, Flickr30k比CMH使用的MIRFLICKR-25K, NUS-WIDE要复杂许多，对于CM的数据集，是句子和图片的pair构成的，一张图片在整个数据集里只有5个注释它句子构成正确的匹配，数据集可表示为{ti, vi}；对于CMH的数据集，是词组和图片以及label的pair构成的，其中词组是tag（MIRFLICKR-25K有1386种tag），就是对当前图片的标签，label是分类标签（MIRFLICKR-25K有24种标签），是人工注释的将该图片分到哪一大类的标签信息，数据集可以表示为{ti, vi, li}。值得注意的是，对于CMH数据集，一个图片和词组可能对应对个标签，例如一条在海边的狗会有动物、自然等标签。
CMH 数据集的划分为query set和database, 在database里训练，测试时用query set向database进行查询，计算MAP，P@1000等指标。对于无监督的任务，则不能使用{T,V,L}中的L，即S需要通过其他方式进行构造。

Evaluation

如何评判CM任务是否检索成功，就看输入的文本或者图片与检索出的图片或文本是不是对应的pair，如何评判CMH任务是否检索成功，就是看输入的文本或者图片与检索出的图片或文本有没有对应的label，多个类别中只要

最低0.47元/天解锁文章

Let's Go G2

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Fast Cross-Modal Retrieval

Survey on Fast Cross-Modal Retrieval BackgroundProblem DefinitionDatasetEvaluationPapers1. CVPR 2017 DCMH "Deep Cross-Modal Hashing"IntroductionPipelineNovelty & ContributionImprovement Point2. CVPR 2018 SSAH "Self-Supervised Adversarial Hashing Netwo
复制链接

扫一扫