跨媒体检索综述——An Overview of Cross-Media Retrieval: Concepts, Methodologies, Benchmarks, and Challenges

跨媒体检索是针对查询和检索结果具有不同媒体类型的场景而设计的。本文包括概念、方法、主要挑战和公开问题,并建立了包括数据集和实验结果的基准。本文构建了一个新的跨媒体数据集XMedia,包含文本,图像,视频,音频,3D模型五种媒体类型。

关键词:跨媒体检索,综述,概念,方法,基准,挑战

 

现在主流的方法是共同空间学习方法,学习不同媒体类型的特征的共同空间,并在共同空间中测量他们的相似性。

同时,跨媒体相似性度量方法通过分析已知数据关系直接计算跨媒体相似性,而不需要获得显式的公共空间。

跨媒体检索的简要说明:

 

一、定义

 

。。。。

 

 

二、共同空间学习(common space learning)

 

语义相同的数据具有潜在的相关性,它们可以在一个共同的高级语义空间中彼此接近。这些方法旨在学习这样的公共空间,并明确地将不同类型的媒体数据投影到该空间进行相似性度量。

本文介绍现有的七种方法,根据特征进行分类:

  • (A)是传统的统计相关分析方法,主要通过优化统计值来学习公共空间的线性投影矩阵,是共同空间学习的基础。
  • 在基本模型上,(B)基于DNN的方法以深度神经网络为基础模型,旨在利用其强大的抽象能力进行跨媒体相关学习。
  • 在相关模型上,(C)跨媒体图正则化方法采用图模型来表示复杂的跨媒体相关性,(D)度量学习将跨媒体相关性看作一组相似/不相似的约束,(E)learning to rank 方法将跨媒体排序信息作为优化目标。
  • 在共同空间属性上,(F)字典学习方法生成字典,学习的公共空间用于跨媒体数据的稀疏系数,(G)跨媒体哈希用于学习公共汉明空间以加速检索。

 

A. 传统的统计相关分析方法 (Traditional Statistical Correlation Analysis Methods )

共同空间学习的基础,主要通过 优化统计值来学习线性投影矩阵。

典型相关分析(CCA):跨媒体数据通常被组织为具有不同媒体类型(如图像/文本对)的成对数据集。CCA学习了使两组异构数据之间的成对相关性最大化的子空间。CCA及其变体是最常用的跨媒体检索的基准方法。 

CCA本身是无监督的,不使用语义类别标签,但研究人员扩展CCA以合并语义信息并取得很多进展,提高了跨媒体检索的准确度。

作为跨媒体公共空间学习的基本范式,这些方法相对训练效率高,易于实现。然而,仅通过线性投影难以真实地模拟真实世界中的跨媒体数据的复杂相关性。此外,这些方法大多只能对两种媒体类型进行建模,但是跨媒体检索通常涉及两种以上的媒体类型。

 

B. 基于DNN的方法 (DNN-Based Methods )

DNN具有很强的非线性学习能力。Ngiam等人将扩展的受限玻尔兹曼机 (RBM) 应用到共同空间学习上,提出双模态深度autoencoder,其中两种不同媒体类型的输入通过共享代码层,学习跨媒体相关性并保留重建信息。在此基础上,提出了一些类似的深层结构,并在跨媒体检索方面取得了进展。例如,Srivastava and Salakhutdinov采用两个单独的玻尔兹曼机建模不同媒体类型的特征分布,通过一个额外的层将两个模型结合起来,作为共同表达层,通过计算联合分布,学习共同空间。

也有一些尝试将DNN与CCA结合起来作为DCCA,DCCA可以看作CCA的非线性扩展,用于学习两种模态复杂的非线性变换。与以往构建一个含有多种模态共享层的网络不同的是,DCCA中有两个独立的子网络,通过代码层之间的相关约束,使总相关性最大。

Feng 等人提出三种共同空间学习的结构:  correspondence autoencoder, correspondence cross-modal autoencoder and correspondence full-modal autoencoder. 它们都有相似的体系结构,由两个子网络在代码层上耦合,同时考虑重构误差和相关损失。有些工作还包括两个autoencoder,比如independent component multimodal autoencoder (ICMAE) and deep canonically correlated autoencoders (DCCAE) 。ICMAE通过学习视觉和文本模态的共享表达来进行属性发现,DCCAE通过整合重建误差和典型相关(canonical correlations)来优化。 Peng等人提出cross-media multiple deep networks (CMDN), 这是一种具有多个深度网络的层次结构。CMDN保留了模态内和模态间的信息,为每种媒体类型生成两种互补的独立表示,然后将它们分层组合,通过一种堆叠的学习方式学习公共空间,提高了检索的准确性。此外,在[39]的工作中,利用用户点击作为跨模态公共空间学习的辅助信息。上述方法的很大一部分是非卷积的,并将手工制作的特征作为输入。Wei 等人提出deep-SM,利用深度语义匹配的CNN,展示CNN特征在跨模态检索中的强大作用。He等提出一个深度双向表示学习模型,利用两个基于卷积的网络,同时对匹配和不匹配的图像/文本对进行建模训练。

跨媒体检索中使用的深层结构主要有两种方式。第一种方法可以看作是一个网络,不同媒体类型的输入通过相同的共享层,第二种方法则由在代码层上相关约束的子网络耦合而成。这些方法以DNN为基本模型,具有处理复杂跨模态关联的抽象能力。然而,训练数据通常对DNN模型的性能起着关键作用,大规模的标记跨模态数据集比单模态数据集更难收集。

除了上述工作,深度结构也被设计解决其他的多媒体问题。如图像/视频caption,文本生成图像,RNN和LSTM应用于图像/视频caption,可以生成视觉内容的文本描述。Generative adversarial networks (GANs) are proposed by Goodfellow et al. [46], which estimate generative models via an adversarial process by simultaneously training two models: a generative model and a discriminative model. The basic idea of GANs is to set up a game between two players, and pit two adversaries against each other. Each player is represented by a differentiable function, which are typically implemented as deep neural networks according to [47]. Reed et al. [44] develop a GANs formulation to convert the visual concepts from characters to pixels. Later, they propose generative adversarial what-where network (GAWWN) [45] to synthesize images by giving the locations of the content to draw. These methods are not directly designed for cross-media retrieval, but their ideas and models are valuable to it.

  1. Cross-Media Graph Regularization Methods 

  2. Metric Learning Methods 

  3. Learning to Rank Methods 

  4. Dictionary Learning Methods 

  5. Cross-Media Hashing Methods 

  6. 其他方法

 

三、跨媒体相似性度量方法(cross-media similarity measurement)

 直接测量异构数据的相似性,无需将媒体实例从不同的空间投影到公共空间。

常用思路:采用图形的边表示媒体实例和多媒体文档(MMD)之间的关系。根据方法不同的侧重点,进一步将其分为两类:(A)基于图的方法,侧重于图的构造;(B)邻域分析法,主要考虑如何利用数据的邻居关系进行相似性度量。

  1. Graph-Based Methods 
  2. Neighbor Analysis Methods 

 

四、其他跨媒体检索方法

  1. Relevance Feedback Analysis  相关反馈分析
  2. Multimodal Topic Model  多模态话题模型

 

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值