（跨模态检索综述）A Comprehensive Survey on Cross-modal Retrieval

最新推荐文章于 2023-06-17 14:21:28 发布

HYY233

最新推荐文章于 2023-06-17 14:21:28 发布

阅读量4.7k

点赞数 4

分类专栏：文献阅读

本文链接：https://blog.csdn.net/HYY233/article/details/103530435

版权

文献阅读专栏收录该内容

9 篇文章 1 订阅

订阅专栏

A Comprehensive Survey on Cross-modal Retrieval

Kaiye Wangy, Qiyue Yiny, Wei Wang, Shu Wu, Liang Wang∗, Senior Member, IEEE

1. 研究现状：

目前跨模态检索主要分为两种方法：(1)real-valued表示学习；(2)binary表示学习。Real-valued表示学习方法目的是学习不同模态数据的实值的相同的表示，大量的binary表示学习是将不同的数据模态映射到一个公共的Hamming空间。第二种方法相似性搜索速度是很快的，但编码是二进制编码，会导致信息的丢失，检索精度一般会略有下降。根据学习常用表示时所使用的信息，将跨模态检索方法进一步划分为四类:(1)无监督方法，(2)基于成对的方法,(3)基于秩的方法,(4)有监督的方法。一般来说，一种方法利用的信息越多，它获得的性能就越好。

2. 研究挑战：

如何度量不同模式数据之间的内容相似性，即异质性差距。因此，与传统的检索方法相比，跨模态检索需要跨模态关系建模，用户可以通过提交已有的内容来检索自己想要的内容。目前，主要的研究工作是设计有效的方法，使跨模态检索更加准确和可扩展性。

3. 本文贡献：

这篇文章目的是提供一个跨模态检索近年发展的调查
对跨模态检索方法进行了分类
本文对常用数据集上的几种典型算法进行了评价
总结了目前的挑战和机遇

4. 跨模态检索基本步骤：

5.Real-value representation learning：

如果不同的数据形式与同一事件或主题相关，则期望它们共享一定的公共表示空间，其中相关数据彼此接近。

5.1 无监督方法

无监督方法只利用共同出现的信息去学习多模态数据共有的表示。

子空间学习方法：目的是学习由不同数据模态共享的公共子空间，其中可以测量不同数据模态之间的相似性。例如Canonical Correlation Analysis[h1] (CCA,最大化两个模态的相关性学习公共子空间，不同模态特征的相似性去学习语义空间), Partial Least Squares[h2] (PLS，转变图像特征到文本空间，通过特征相似性学习语义空间)，Bilinear Model[h3] (BLM), cross-modal factor analysis[h4] [h5] (CFA，在转换后的领域，采用最小化F-norm的标准), maximum covariance unfolding[h6] (MCU，最大协方差展开，用于同时降维不同模式数据的流形学习算法) , collective component

analysis [h7] (CoCA, 处理异构特征空间上的降维),

主题模型方法：主题模型已广泛应用于特定的跨模态问题，即图像注释。LDA已广泛运用于学习多模态数据的联合分布。(Multimodal Document Random Field, MDRF)学习一组跨模态的共享主题。该模型在文档级定义了一个马尔可夫随机域，允许对更灵活的文档相似性进行建模。

深度学习方法：一个深度受限的玻尔兹曼机器成功地学习了多模态数据的联合表示。它首先使用独立的模态友好的潜在模型来学习每个模态的低层表示，然后沿着高层的深层架构融合成联合表示。

深度典型相关分析(DCCA)是一种学习复杂非线性投影的深度学习方法，针对不同的数据模式，其结果表示形式是高度线性相关的。DCCA的挑战在于复杂度和记忆时间。

correspondence autoencoder (Corr-AE)由两个单模态自动编码器的相关隐藏表示构成。该方法将每种模态的表示学习误差和两种模态的隐藏表示之间的相关学习误差的线性组合最小化，将模型作为一个整体进行训练。

5.2 Pairwise based methods

该方法通过度量标准，找到不同模态的相似性。

Shallow方法：Multi-View Neighborhood Preserving Projection(Multi-NPP)将不同的模型投影到一个共享的特征空间，通过欧氏距离划分出类内模态和类间模态的相似性。Multiview Metric Learning with Global consistency and Local smoothness (MVML-GL)首先寻找一个全局一致共享的隐藏特征空间，然后通过正则化局部线性回归，明确输入空间和隐藏特征空间的映射函数。joint graph regularized heterogeneous metric learning (JGRHML)通过学习异构矩阵，通过异构矩阵更好的学习高层的语义信息。

深度学习方法：RGDBN，MSDS。

5.3 基于秩的方法

Shallow方法：Supervised Semantic Indexing(SSI), discriminative kernel-based method, Latent Semantic Cross-Modal Ranking (LSCMR)利用SVM学习矩阵学习一种度量方法，这样就可以根据不同的排序度量方法优化由查询距离引起的数据的排序。然而，LSCMR并没有充分利用双向排序的例子。RCCA对CCA学习的子空间进行调整，进一步保持点击数据中的偏好关系。

深度学习方法：深度视觉语义嵌入模型(DeViSE),Dependency tree RNN,双向搜索网络（用图像和句子的片段建立共同空间），deep compositional cross-modal learning，Cross-Modal Correlation learning with Deep Convolutional Architecture (CMCDCA)，它由视觉特征表示学习和多模态相关性学习组成。

5.4 有监督学习

子空间学习方法: Generalized Multiview Analysis (GMA), Canonical Correlation Analysis (ml-CCA), multiview feature learning approach based on intra-view and interview supervised correlation analysis (I2SCA).

主题模型的方法;

深度学习方法

6. 二进制方法

主要全为哈希方法的变体。

总结与展望

目前可关注点如下

1.Collection of multimodal large-scale datasets收集多模态大规模的数据集。

2.Multimodal learning with limited and noisy annotations 有限和噪声注释的多模态学习。

3. Scalability on large-scale data大规模数据的可扩展性。

4. Deep learning on multimodal data多模态数据的深度学习

5. Finer-level cross-modal semantic correlation modeling更优质的多模态语义相关模型

[h1]N. Rasiwasia, J. Costa Pereira, E. Coviello, G. Doyle, G. R. Lanckriet,R. Levy, and N. Vasconcelos, “A new approach to cross-modal multimedia retrieval,” in International conference on Multimedia. ACM,

2010, pp. 251–260.

[h2]R. Rosipal and N. Kramer, “Overview and recent advances in partial ¨least squares,” in Subspace, latent structure and feature selection.Springer, 2006, pp. 34–51

[h3][15] A. Sharma, A. Kumar, H. Daume, and D. W. Jacobs, “Generalized multiview analysis: A discriminative latent space,” in Computer Vision

and Pattern Recognition. IEEE, 2012, pp. 2160–2167.

[16] J. B. Tenenbaum and W. T. Freeman, “Separating style and content with bilinear models,” Neural Computation, vol. 12, no. 6, pp. 1247–1283, 2000.

[h4]D. Li, N. Dimitrova, M. Li, and I. K. Sethi, “Multimedia content processing through cross-modal association,” in International Conference on Multimedia. ACM, 2003, pp. 604–611

[h5]D. Li, N. Dimitrova, M. Li, and I. K. Sethi, “Multimedia content processing through cross-modal association,” in International Conference on Multimedia. ACM, 2003, pp. 604–611

[h6]V. Mahadevan, C. W. Wong, J. C. Pereira, T. Liu, N. Vasconcelos, and L. K. Saul, “Maximum covariance unfolding: Manifold learning for bimodal data,” in Advances in Neural Information Processing Systems,

2011, pp. 918–926.

[h7]X. Shi and P. Yu, “Dimensionality reduction on heterogeneous feature space,” in International Conference on Data Mining, 2012, pp. 635–

644