一、、笔记:A Comprehensive Survey on Cross-modal Retrieval

A Comprehensive Survey on Cross-modal Retrieval

1、简述

  • 什么是跨模态检索(cross-modal retrieval)?
    通常不同的数据模式会用来描述相同的主题或者事件,例如,一个网页不仅包含文字叙述,还包含用于说明共同内容的图像或者视频,这种类型的数据称为多模态数据(multi-moddal data),其具有异构性(heterogeneous),而跨模态检索就旨在将一种类型的数据作为查询去检索另一种类型的数据,例如用文本做为查询去检索图像,或者以图像作为查询去检索文本
  • 跨模态检索需要解决的主要问题: 如何衡量两种模态数据的相似性,也称作异构性差距(heterogeneity gap)。跨模态数据呈现底层特征异构、高层语义相关的的特点。如何表示底层特征、怎样对高层语义进行建模以及如何对模态间的关联建模,这都是跨模态检索面临的挑战
  • 目前针对对跨模态检索的方法可以分为两个大类:1) 实值表示学习(real-value representation learning) 2) 二进制表示学习(binary representaation learning),又称之为跨模态哈希方法(cross-modal hashing),优缺点比较:实值学习由于子空间由浮点数表示,存储量以及计算量要求比较大,而精确度高,跨模态哈希方法将不同的模态特征映射到相同的汉明二值空间,可以在汉明空间内实现快速的跨模态检索,所需存储空间小,计算量小,主要是在实值二值化的过程中破环了原有的结构造成精度损失
  • 介绍了几个多模态数据集(multimodal dataset)
  • 对未来跨模态检索研究的一些开放方向

下图即为跨模态检索的大致框架:
在这里插入图片描述

2、Methods

作者在文中详尽的例举了跨模态检索方法,总结如下表:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值