一、、笔记：A Comprehensive Survey on Cross-modal Retrieval

最新推荐文章于 2021-03-15 22:00:25 发布

__main__

最新推荐文章于 2021-03-15 22:00:25 发布

阅读量897

点赞数 1

分类专栏：论文阅读

本文链接：https://blog.csdn.net/baidu_32885165/article/details/94439534

版权

论文阅读专栏收录该内容

4 篇文章 0 订阅

订阅专栏

A Comprehensive Survey on Cross-modal Retrieval

1、简述

什么是跨模态检索(cross-modal retrieval)?
通常不同的数据模式会用来描述相同的主题或者事件，例如，一个网页不仅包含文字叙述，还包含用于说明共同内容的图像或者视频，这种类型的数据称为多模态数据(multi-moddal data)，其具有异构性(heterogeneous)，而跨模态检索就旨在将一种类型的数据作为查询去检索另一种类型的数据，例如用文本做为查询去检索图像，或者以图像作为查询去检索文本
跨模态检索需要解决的主要问题: 如何衡量两种模态数据的相似性，也称作异构性差距（heterogeneity gap）。跨模态数据呈现底层特征异构、高层语义相关的的特点。如何表示底层特征、怎样对高层语义进行建模以及如何对模态间的关联建模，这都是跨模态检索面临的挑战
目前针对对跨模态检索的方法可以分为两个大类：1) 实值表示学习(real-value representation learning) 2) 二进制表示学习(binary representaation learning)，又称之为跨模态哈希方法(cross-modal hashing)，优缺点比较：实值学习由于子空间由浮点数表示，存储量以及计算量要求比较大，而精确度高，跨模态哈希方法将不同的模态特征映射到相同的汉明二值空间，可以在汉明空间内实现快速的跨模态检索，所需存储空间小，计算量小，主要是在实值二值化的过程中破环了原有的结构造成精度损失
介绍了几个多模态数据集(multimodal dataset)
对未来跨模态检索研究的一些开放方向

下图即为跨模态检索的大致框架：
在这里插入图片描述