《A Comprehensive Survey on Cross-modal Retrieva》

《A Comprehensive Survey on Cross-modal Retrieva》

论文链接(Submitted on 21 Jul 2016)

Abstract

先是简要叙述了什么时跨模态检索(一个网页往往不仅包含文字叙述,还包含用于说明共同内容的图像或者视频,这种类型的数据称为多模态数据(multi-moddal data),其具有异构(heterogeneous),跨模态检索就旨在将一种类型的数据作为查询去检索另一种类型的数据,例如用文本做为查询去检索图像,或者以图像作为查询去检索文本)。
然后说明本文要介绍的三个主要内容。

  1. 回顾了一些具有代表性的跨模态检索方法,并将它们分为两大类:实值表示和二进制表示。
  2. 介绍了社区中的几种多模态数据集,并展示了在两种常用的多模态数据集上的实验结果。
  3. 讨论了尚待解决的题和未来的研究方向。

INTRODUCTION

本部分说明了跨模态检索应用的背景,以及意义。并且说明跨模态检索的挑战在于度量不同模态数据之间的相似度,即异构性差距(heterogeneity gap)。因此,如何设计有效的跨模态检索方法,提高跨模态检索的准确性和可扩展性,是跨模态检索的主要研究方向。

OVERVIEW

本部分对跨模态检索的各种方法进行了综述
图3给出了跨模态检索的一般框架,其中,多模态数据的特征提取被认为是表示数据的各种模态的第一步。基于多模态数据的这些表示,执行跨模态相关建模,以学习数据的各种模态的公共表示。最后,通过适当的搜索结果排序和摘要解决方案,实现了跨模态检索。在这里插入图片描述
目前针对对跨模态检索的方法可以分为两个大类:
实值表示学习(real-value representation learning) 和二进制表示学习(binary representaation learning),又称之为跨模态哈希方法(cross-modal hashing)
对于实值表示学习,学习到的用于数据的各种模态的公共表示是实值的。 为了提高跨模态检索的速度,二进制表示学习方法将不同模态的数据转换到一个公共的Hamming空间,在该空间中跨模态相似性搜索速度较快。 由于表示被编码为二进制码,检索精度一般会因为信息的丢失而略有下降。
根据学习公共表示时所利用的信息,跨模态检索方法可进一步分为4类:1)无监督的方法,2)pairwise based methods,3) rank based methods和4)有监督的方法,一般来说,一种方法利用的信息越多,其性能越好
1)对于无监督方法,只利用共现信息(co-occurrence information )来学习跨多模态数据的公共表示,共现信息是指如果不同模态的数据共存于一个多模态文档中,则它们具有相同的语义,例如,一个网页通常既包含文本描述,又包含用于说明同一事件或主题的图像。
2)对于基于成对的方法(pairwise based methods),使用相似对(或不相似对)来学习公共表示,这些方法通常学习数据不同模态之间有意义的度量距离。
3)在基于秩的方法(rank based methods)中,通常使用秩表来学习公共表示,基于秩的方法将跨模态检索作为一个学习秩的问题来研究。
4)有监督方法利用标签信息来学习公共表示,这些方法要求不同类样本的学习表示相距较远,而同一类样本的学习表示尽可能接近,从而获得更有区分度的表示,但有时由于大量的人工标注,标签信息的获取成本较高。
表1总结了不同类别的跨模态检索的典型算法。在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值