跨模态检索

最新推荐文章于 2024-04-27 13:14:28 发布

秃头研究生

最新推荐文章于 2024-04-27 13:14:28 发布

阅读量7.3k

点赞数 16

分类专栏：跨模态检索文章标签：计算机视觉深度学习神经网络人工智能

本文链接：https://blog.csdn.net/Exception_3212536934/article/details/124125356

版权

跨模态检索专栏收录该内容

4 篇文章 2 订阅

订阅专栏

本文是我阅读跨模态检索综述后结合自己的学习总结的文章，阅读的综述如下：

【1】刘颖，郭莹莹，房杰，范九伦，郝羽，刘继明．深度学习跨模态图文检索研究综述[J/OL]．计算机科学与探索.

【2】Yin Q Y，Huang Y，Zhang J G，Wu S and Wang L． 2021． Survey on deep learning based cross-modal retrieval． Journal of Image and Graphics，26( 06) : 1368-1388( 尹奇跃，黄岩，张俊格，吴书，王亮． 2021．基于深度学习的跨模态检索综述．中国图象图形学报，26( 06) : 13681388) ［DOI: 10. 11834 / jig. 200862］

一、定义

通过一种模态样本来检索具有近似语义的另一种模态样本。
跨模态学习是多模态学习的分支。
跨模态检索训练过程中所有模态的数据都存在，但在测试过程中只有一种模态可用。
挑战：如何度量不同模态数据之间的内容相似性，也称之为异质鸿沟问题。

二、分类以及相关文献

1、基于实值表示学习

提升跨模态语义相关性，进而提高跨模态检索准确度。

基于特征表示方法

特征提取是影响跨模态图文检索准确度的重要因素。

基于特征表示的方法一般通过两种方式来获取更好的跨模态输入特征，第一种针对不同应用场景，采用特殊的网络结构或提取特定的特征来获得图像文本表示，第二种方法则对经典的 CNN 模型进行微调改进。该类方法尤其对大规模、多标签数据集有良好的适应性，可以为未来跨模态检索提供更有效的设计思路。

【1】WANG J, HE Y, KANG C, et al. Image-text cross-modal retrieval via modality-specific feature learning[C]//Proceedings of the 5th ACM on International Conference on Multimedia Retrieval, Shanghai, China, June 23-26,2015. New York, United States: Association for Computing Machinery, 2015: 347-354.

提出了模态针对型深层结构模型（MSDS），该模型使用CNN和WCNN分别提取图像和文本表示，通过使用标准反向传播技术来更新CNN与WCNN的参数。WCNN可以处理不同长度的序列并获取具有相同维度的结果特征向量，能够有效提取文本特征。

【2】HE Y, XIANG S, KANG C, et al. Cross-modal retrieval via deep and bidirectional representation learning[J]. IEEE Transactions on Multimedia, 2016, 18(7): 1363-13 77.

在文献【1】的基础上，提出了基于深度双向表示学习模型（DBRLM），利用双向结构探索匹配与不匹配图像文本对的关系，增加了匹配对的相似性。

【3】LI Z, LU W, BAO E, et al. Learning a semantic space by deep network for cross-media retrieval[C]//The 21st International Conference on Distributed Multimedia Systems. Hyatt Regency, Vancouver, Canada, August 31September 2, 2015. Illinois, United States: Knowledge Systems Institute, 2015.199-203.

针对单标签或多标签样本跨模态图文检索问题，为了更好地弥合图像和相应语义概念间的差距，使用了深度卷积激活特征描述子（DeCAF），将CNN实现产生的1000维度预测得分座位ImageNet的输入视觉特征。实验表明，DeCAF 可以使学习到的视觉特征具有足够的表征能力，特征提取效果良好。

【4】WEI Y, ZHAO Y, LU C, et al. Cross-modal retrieval with CNN visual features: a new baseline[J]. IEEE Transactions on Cybernetics, 2017, 47(2): 449-460.

针对文献【3】同样的问题，对预训练的 CNN 模型进行微调，提出了深度语义匹配方法 (deep Semantic Matching, deep-SM)，对不同的目标数据集采用不同的损失函数，使用微调的 CNN 和训练的全连接神经网络将图像和文本投影到高抽象级别的同构语义空间中。实验表明，微调的方法可以提高其对目标数据集的适应性，有效降低图像与相应语义之间的鸿沟。

【5】FAN M, WANG W, DONG P, et al. Cross-media retrieval by learning rich semantic embeddings of multimedia[C]// Proceedings of the 25th ACM International Conference on Multimedia. Mountain View California USA, October 23-27, 2017. New York, United States: Association for Computing Machinery, 2017:1698-1706.

利用文献【4】的同一思路，通过微调深度 CNN 模型对图像生成视觉嵌入，有效避免了部分语义信息的丢失。

基于图文匹配的方法

基于图文匹配的方法更关注于不同模态间的结构关联，此类方法通过研究图像和文本模态间的语义对应关系来增强模态间特征表示的一致性。

目前主流的基于图文匹配的方法按照模态间语义结构关联的不同可分为三类：图像-文本对齐的方法、跨模态重构的方法和图文联合嵌入的方法。

1、图像-文本对齐的方法

图像-文本对齐的方法一般通过学习同一实例不同模态特征之间的关系来推断句子片段与图像区域之间的潜在对齐，进而实现图文匹配。

图像-文本对齐的方法更加关注图像和文本的局部区域片段信息。此类方法的优势在于，通过注意力机制等方式，能够获得更好的细粒度语义区分能力，有效解决多语义、图像问答、图描述和细粒度交互等问题，进而提高了图文匹配的准确度，具有良好的检索性能。然而，此类方法由于更多聚焦于局部信息，对数据集的规模和质量以及模型的精细度会有更高的要求，且大多并不适用于全局信息的匹配。如何在保证局部片段信息良好对齐的前提下实现图文整体的准确匹配仍是目前需要研究的方向。

【1】KARPATHY A, FEI-FEI L. Deep visual-semantic alignments for generating image descriptions[C]//In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, Massachusetts, June 8-10, 2015. Piscataway, N.J: IEEE Press, 2015: 3128-3137.

将句子视为丰富的标签空间，使连续的单词片段对应于图像中某个特定但未知的位置。该模型能够实现对小区域或相对罕见对象的视觉语义对应关系的解释，在图像-句子排序实验中有良好的性能表现。

【2】MALINOWSKI M, ROHRBACH M, et al. Ask your neurons: a neural-based approach to answering questions about images[C]//In Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile, December 13-16, 2015. Piscataway, N.J: IEEE Press, 2015:1-9.

将问题意图推理、视觉场景理解与单词序列预测任务结合起来，提出了Neural-Image-QA 模型，其中问题与视觉表征一起被输入 LSTM 进行联合训练，其语言输出取决于视觉和自然语言输入，通过单词和像素的端到端训练，获取了良好的匹配结果，实验表明该方法在“单字”变体情况下能实现最佳性能。

【3】GAO D, JIN L, CHEN B, et al. FashionBERT: text and image matching with adaptive loss for cross-modal retrieval[C]//In Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. Virtual Event China, July 25-30, 2020. New York, United States: Association for Computing Machinery, 2020: 2251-2260.

针对服装领域提出了 FashionBERT 模型，相比于感兴趣区域(Region of Interest, RoI)模型，时尚文本倾向于描述更精细的信息。因此，FashionBERT 模型由 BERT(Bidirectional Encoder Representations from Transformers)模型引申得到。BERT 是一种双向注意力语言模型，作为 Transformer在自然语言处理任务的变体之一，其主要作用是对单模态文本数据进行编码。FashionBERT 在提取图像表示时将每个图像分割成相同像素的补丁，作为 BERT 模型的序列输入，在匹配时将文本标记和图像补丁序列进行连接。实验表明该方法可以一定程度上掩盖图像中不相关的信息，减小了检测到无用和重复区域的可能性。

【4】LEE K H, CHEN X, HUA G, et al. Stacked cross attention for image-text matching[C]//Proceedings of the European Conference on Computer Vision (ECCV). Munich, Germany, September 8-14, 2018. Berlin: Springer, 2018: 201-216.

由于注意力机制模型在图像-文本对齐方法中的良好表现，此文献提出了堆叠交叉注意力模型(Stacked Cross Attention Network, SCAN)。该模型对图像 RoI 和文本标记执行跨模态匹配，利用注意力机制将每个片段与来自另一模态的所有片段对齐，以区分单词及图像区域的被关注度，有助于捕捉视觉和语言间的细粒度相互作用，增强匹配能力。该方法可以灵活地发现细粒度对应关系，在多个基准数据集上都获得了最佳性能。

【5】ZHANG Q, LEI Z, ZHANG Z, et al. Context-aware attention network for image-text retrieval[C]//In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, WA, 2020 Jun 16-20. Piscataway, N.J: IEEE Press, 2020: 3536-3545.

然而，基于注意力机制的方法大多忽略了全局上下文中出现的多种语义情况。基于此，此文献提出了语境感知注意力网络(Context-Aware Attention Network, CAAN)，根据全局上下文有选择地关注信息量最大的局部片段，综合了模态间和模态内注意过程，同时执行图像辅助的文本注意和文本辅助的视觉注意，很好地聚合了上下文信息，捕捉了潜在的模态内相关性，实验表明自适应检索过程中考虑特定上下文能够帮助模型获得更好的检索结果。

【6】CHEN H, DING G, LIU X, et al. IMRAM: Iterative matching with recurrent attention memory for cross-modal image-text retrieval[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, WA, 2020 Jun 16-20. Piscataway, N.J: IEEE Press, 2020: 12655-12663.

提出了基于循环注意记忆的迭代匹配 (Iterative Matching with Recurrent Attention Memory, IMRAM) 方法，该方法通过迭代匹配方案逐步更新跨模态注意力核心，挖掘图文间细粒度的对应关系。

2、跨模态重构的方法

与图像-文本对齐的方法关注局部信息的方式不同，跨模态重构的方法更关注全局信息，此类方法通常利用一种模态信息来重构对应模态，同时保留重建信息，能够增强跨模态特征一致性及语义区分能力。

跨模态重构的方法利用深度自编码器等方式，有效缩小了模态间的异构性差异，增强了语义辨别能力。此类方法对数据集的训练及其规模要求并不高，注释成本低，更适用于中小型数据集，具有可扩展性，多用于与图像字幕生成等任务。然而，此类方法在模型训练过程中容易忽略细节信息，对目标数据集成对相关性的表现度不足。因此，如何在缩小模态间统计差距的前提下，共同学习局部文本与图像信息的对齐，并据此来动态的调节模态间的生成过程，是目前此类方法所面临的挑战。

【1】NGIAM J, KHOSLA A, KIM M, et al. Multimodal deep learning[C]//Proceedings of the 28th International Conference on Machine Learning (ICML). Bellevue, Washington, USA, July 2, 2011. International Machine Learning Society, 2011: 689-696.

提出不同模态数据共享权重的双模深度自编码器模型，在仅给定视频数据的情况下进行跨模态重建，从而发现跨模态的相关性。

【2】KIROS R, SALAKHUTDINOV R, ZEMEL R S. Unifying visual-semantic embeddings with multimodal neural language models[J]. arXiv preprint arXiv: 1411.2539, 2014.

在【1】的基础上提出了一种图像字幕生成的方法，引入了结构-内容神经语言（SC-NLM) 模型，SC-NLM 通过编码器学习图像句子联合嵌入，并根据编码器产生的分布式表示，将句子的结构与内容分离，再通过解码器生成新的字幕。该模型有效地统一了联合图像-文本嵌入模型和多模态神经语言模型，实现了对图和字幕的排序及新字幕的生成。

【3】XU X, SONG J, LU H, et al. Modal-adversarial semantic learning network for extendable cross-modal retrieval[C] //Proceedings of the 2018 ACM on International Conference on Multimedia Retrieval. Yokohama Japan, June 11 -14, 2018. New York, United States: Association for Computing Machinery, 2018: 46-54.

针对源集和目标集实例在不可扩展跨模态检索任务中通常被假定共享相同范围的类，当二者实例具有不相交的类时，难以取得理想的检索结果的这个问题，提出了模态对抗语义学习网络(Modal-adversarial Semantic Learning Network, MASLN)，其中，跨模态重构子网络通过条件自编码器相互重建各模态数据，实现从源集到目标集的知识转移，使跨模态分布差异最小化；模态对抗语义学习子网络通过对抗性学习机制产生语义表征，使学习到的公共表示对语义有区别而对模态无区别。实验表明，该方法在可扩展和不可扩展的检索任务中结果都优于其他方法，有效缩小了不同模态之间的异质性差距。

【4】CORNIA M, BARALDI L, TAVAKOLI H R, et al. A unified cycle-consistent neural model for text and image retrieval[J]. Multimedia Tools and Applications, 2020, 79(35): 25697-25721.

为了克服对嵌入空间的需求，此文献提出了循环一致图文检索网络(A Cycle-consistent Text and Image Retrieval network, CyTIR-Net)，将图文检索问题表述为文本和视觉转换的问题。该方法利用文本项和视觉特征的相互翻译建立重构约束。实验表明该方法对中小型数据集表现更好，良好的展示了循环一致性约束的正则化能力和网络的泛化能力，以及增强模型在跨模态检索中的场景辨别能力。

3、图文联合嵌入的方法

相比于图像-文本对齐的方法和跨模态重构的方法，图文联合嵌入的方法一般结合了全局和局部信息作为语义特征的嵌入，因此能够学习到更好的特征判别性。此类方法一般通过图像和文本模态数据的联合训练及语义特征的嵌入来学习图像文本的相关性，进而实现图文匹配。

图文联合嵌入的方法更关注对高级语义信息的探索。此类方法一般利用生成对抗等思想，通过最小化判别损失函数和模态不变性损失等方式挖掘丰富的语义相关性，能够很大程度上消除跨模态异构差异，减小“语义鸿沟”及“认知鸿沟”，有效解决多义实例、模态缺失等问题，并能良好地捕获成对信息相关性，提高图文匹配的准确度和可扩展性，具有很好的检索性能。

【1】CASTREJON L, AYTAR Y, VONDRICK C, et al. Learning aligned cross-modal representations from weakly aligned data[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, June 27-30, 2016. Piscataway, N.J: IEEE Press, 2016: 2940-2949.

针对模态特征的不一致性导致的跨模态迁移困难的问题，此文献使用弱对齐的数据来学习具有强对齐的跨模态表示，在共享层使用多层感知器将文本信息映射到与视觉模态相同维度的表示空间中。该模型同时用到了微调和统计正则化的方法，可以在训练数据没有明确对齐的情况下跨模态检测相同的概念，具有良好的检索性能。

【2】ZHEN L, HU P, WANG X, et al. Deep supervised cross-modal retrieval[C]//In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA, June 15-20, 2019. Piscataway, N.J: IEEE Press, 2019: 10394-10403.

为了寻找公共表示空间来直接比较不同模态的样本，此文献提出了深度监督跨模态检索 (Deep Supervised Cross-modal Retrieval, DSCMR)方法，通过最小化样本在标签空间和公共表示空间中的判别损失来监督模型学习判别特征，以保持不同类别语义样本间的区分度，并使用权重共享策略来消除多媒体数据在公共表示空间中的跨模态差异。相比以往的方法，DSCMR 的学习策略可充分利用成对标签信息和分类信息，有效学习了异构数据的公共表示。

【3】WANG C, YANG H, MEINEL C. Deep semantic mapping for cross-modal retrieval[C]//In 2015 IEEE 27th International Conference on Tools with Artificial Intelligence, Vietri sul Mare, Italy, 9-11 Nov. 2015. Piscataway,N.J: IEEE, 2015:234-241.

文献【1】【2】已考虑到不同模态到公共空间的特征映射，但这种映射函数仅关注于学习模态内或模态间的区分特征，而未能在跨模态学习方法中充分利用语义信息。因此，此文献提出了基于正则化跨模态语义映射的深度神经网络(Regularized Deep Neural Network, RE-DNN)，通过施加模态内正则化，进而获得一个联合模型来捕捉不同输入之间的高度非线性关系。该模型在语义层同时捕获模态内和模态间的关系，且所学习的深层架构能够通过停用部分网络来解决模态缺失问题，具有良好的处理不成对数据的能力。该算法仅需要很少的模型训练先验知识，且对大规模数据集可扩展。

【4】FAN M, WANG W, DONG P, et al. Cross-media retrieval by learning rich semantic embeddings of multimedia[C]// Proceedings of the 25th ACM International Conference on Multimedia. Mountain View California USA, October 23-27, 2017. New York, United States: Association for Computing Machinery, 2017:1698-1706.

为了减小低级视觉特征和高级用户概念之间的“认知鸿沟”，此文献提出了多感官融合网络(Multi-Sensory Fusion Network，MSFN)联合模型，将同维 CNN 视觉嵌入和 LSTM 描述嵌入看作人类的两种感官，从人类感知角度将视觉和描述性感官相结合。在测试集中的所有图像和文本映射到公共语义空间后，跨模态检索被转化为用传统相似性度量评估的同构检索问题，该方法通过最小化类别损失函数挖掘了跨模态丰富的语义相关性。

【5】SONG Y, SOLEYMANI M. Polysemous visual-semantic embedding for cross-modal retrieval[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, USA, June 15-20, 2019. Piscataway, N.J: IEEE Press, 2019: 1979-1988.

图文联合嵌入方法通常会学习内嵌式嵌入函数(Injective Embedding Functions)，对于具有歧义的实例，内嵌函数寻找单个点会严重限制其在现实世界中的应用。此文献提出的模型能够很好地解决这个问题。

针对内嵌函数学习某一模态只能表示对应模态的部分信息，进而导致被忽略信息在映射点丢失的问题，此文献提出了多义视觉语义嵌入方法(Polysemous Visual-Semantic Embedding, PVSE)，在多实例学习框架中对图像和文本 PIE 网络进行联合优化，且该方法通过最大平均差异 (Maximum Mean Discrepancy, MMD)来最小化两个嵌入分布之间的差异。实验表明了残差学习和多实例学习对于实例语义模糊数据检索的重要性。

【6】GU J, CAI J, JOTY S, et al. Look, imagine and match: improving textual-visual cross-modal retrieval with generative models[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA, June 19-21, 2018. Piscataway, N.J: IEEE Press, 2018: 7181-7189.

为解决多义实例问题，此文献提出了生成式跨模态学习网络（Generative Cross-modal Feature Learning, GXN），将基础表示和抽象表示相结合。除了全局语义层的跨模态特征嵌入外，GXN 还引入了图像到文本和文本到图像两种生成模型的局部跨模态特征嵌入，通过生成过程来学习全局抽象特征及局部基础特征。该方法能够有效处理多义实例问题，并能够检索具有局部相似性的图像或具有词级相似性的句子。

【7】WANG B, YANG Y, XU X, et al. Adversarial cross-modal retrieval[C]//In Proceedings of the 25th ACM international conference on Multimedia. Mountain View California USA, October 23-27, 2017. New York, United States: Association for Computing Machinery, 2017: 154-162.

通过引入 GAN 网络的对抗思想，此文献提出了对抗式跨模态检索方法(Adversarial Cross-Modal Retrieval, ACMR)，该模型在对抗机制下执行语义学习，其中，特征投影器从公共子空间中的不同模态生成模态不变表示，模态分类器根据生成的表示来区分不同的模态，并以这种方式引导特征投影器的学习。通过对特征投影器施加三元组约束，将具有相同语义标签的跨模态表示差异最小化，同时最大化具有不同语义的图像文本之间的距离。该方法在跨模态数据被投影到公共子空间中时，数据的潜在语义结构被更好地保留。

2、基于二进制表示学习

提升跨模态图文检索效率，减少存储空间。

实值表示学习方法具有良好的语义区分能力，能够很大程度上减小“语义鸿沟”及“认知鸿沟”，因此其检索准确性一般很好，但对于一些对检索效率要求高的任务场景，实值表示学习并不适用。相比于实值表示学习方法，二进制表示学习方法在检索效率上具有优势，其在保证准确率波动幅度可控的前提下，可显著提升检索速度。

二进制表示学习方法将跨模态数据投影到一个公共汉明空间，目的在于给相似的跨模态内容赋予相似的哈希码。

二进制表示学习方法更侧重解决模态特征异构引起的模态差异问题，运用端到端、生成对抗等思想，致力于最大化特征分布的一致性。此类方法还有效解决了过拟合等问题。然而由于此类方法在二值化过程中会导致信息的丢失以及原有结构被破坏，因此，考虑模态内数据结构和模态间结构匹配的关联，优化计算等是目前需要研究的方向。

【1】XIA R, PAN Y, LAI H, et al. Supervised hashing for image retrieval via image representation learning[C]// Proceedings of the Twenty-Eighth AAAI Conference on Artificial Intelligence. Québec, Canada, July 27-31, 2014. Cambridge, MA: The MIT Press, 2014: 2156-2162.

此文献提出了卷积神经网络哈希(Convolutional Neural Network Hashing, CNNH)模型，使基于 CNN 的深度哈希算法开始受到关注。

【2】LIN K, YANG H F, HSIAO J H, et al. Deep learning of binary hash codes for fast image retrieval[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Boston, MA, USA, June 8-10, 2015. Piscataway, N.J: IEEE Press, 2015: IEEE, 2015: 27-35.

此文献提出二进制哈希码的深度学习(Deep Learning of Binary Hash Codes, DLBHC)方法，利用深度 CNN 的增量学习特性，以点的方式进行编码和图像表示，同时学习特定图像表征和类似哈希的函数，实现了快速图像检索并使其适用于大规模数据集。

【3】ZHAO F, HUANG Y, WANG L, et al. Deep semantic ranking based hashing for multi-label image retrieval[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA, June 8-10, 2015. Piscataway, N.J: IEEE Press, 2015: IEEE, 2015: 1556-1564.

为了进一步探索多标签关联图像的复杂多级语义结构，此文献提出深度语义哈希排序(Deep Semantic Ranking Hashing, DSRH)方法，利用深度 CNN 与列表排序监督哈希，共同学习特征表示和从它们到哈希码的映射，避免了传统方法特征语义表示能力不足的限制。

【4】ZHANG D, WANG F, SI L. Composite hashing with multiple information sources[C]//Proceeding of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. Beijing, China, July 24-28, 2011. New York, United States: Association for Computing Machinery, 2011: 225-234.

为确保哈希码和不同信息源所设计哈希函数的一致性，此文献提出了多源信息复合哈希算法 (Composite hashing with multiple information sources, CHMIS)，通过调整权重的信息集成方法(CHMIS with Adjusted Weights，CHMIS-AW)调整每个单独源的权重，将来自不同源的信息集成到二进制哈希码中，进而最大化编码性能，保留了训练示例之间的语义相似性。

【5】CAO Y, LONG M, WANG J, et al. Deep visual-semantic hashing for cross-modal retrieval[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco California, USA, August 13-17, 2016. New York, United States: Association for Computing Machinery, 2016: 1445-1454.

针对不同模态的异构性，此文献提出了深度视觉语义哈希 (Deep Visual Semantic Hashing, DVSH)模型，该模型是首个跨模态哈希的端到端学习方法，设计了学习图文联合嵌入的视觉语义融合网络，以桥接不同模态及两个模态特定的哈希网络，其生成的紧凑哈希码能够捕捉视觉数据和自然语言之间的内在对应关系，进而获取判别性特征，且该模型有效克服了传统融合网络对双峰对象联合嵌入的需求，更适用于高精度的应用程序。

【6】JIANG Q Y, LI W J. Deep cross-modal hashing[C]// Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. Honolulu, USA, July 21-26, 2017. Piscataway, N.J: IEEE Computer Society, 2017: 3270-3278.

针对跨模态哈希(Cross-Modal Hashing, CMH)手工制作特性与哈希码学习不能良好兼容的问题，此文献介绍了跨模态深度哈希算法 (Deep Cross-Modal Hashing, DCMH)，将特征学习和哈希码学习集成到同一端到端学习框架，通过同时对不同类型样本对施加约束使相似样本间相互靠近，从而保证模态间的对齐，且 DCMH 直接学习离散的哈希码，避免了检索准确性的降低，提高了检索性能。

【7】LI C, DENG C, LI N, et al. Self-supervised adversarial hashing networks for cross-modal retrieval[C]//In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA, Jun 19-21, 2018. Piscataway, N.J: IEEE Press, 2018: 42424251.

为了弥补模态差异以进一步提高检索准确度，此文献提出了自我监督的对抗式哈希方法 (Self-Supervised Adversarial Hashing，SSAH)，将对抗式学习以自监督方式结合到跨模态哈希中，由自监督语义生成网络 (LabNet) 和图像文本对抗网络 (ImgNet 和 TexNet)组成。其中，自监督语义生成网络用来监督两个模态的语义空间以及对抗性学习。两个对抗网络用来共同学习不同模态的高维特征及其对应的哈希码。实验表明，SSAH 比 DCMH 减少了 10 倍的训练时间，且 SSAH 学习了更充分的监督信息，可以捕获不同模态间更精确的相关性。

【8】WU L, WANG Y, SHAO L. Cycle-consistent deep generative hashing for cross-modal retrieval[J]. IEEE Transactions on Image Processing, 2018, (99): 1-1.

针对跨模态哈希在有限数量标记样本上容易过拟合以及高维输入转换成二进制代码导致的信息丢失问题，此文献提出了循环一致的深层生成哈希算法(Cycle-Consistent Deep Generative Hashing, CYC-DGH)，通过循环一致的对抗学习在没有成对对应的情况下学习耦合的生成哈希函数。该算法通过深度生成模型从哈希码中重新生成输入，使学习到的哈希码最大限度地关联每个输入-输出对应关系，且哈希嵌入过程中的信息损失被最小化，有效压缩了输入数据，同时能够最大限度地保留自身信息及不同模态样本间的关系，对减小哈希函数间的模态差异有良好表现。

三、相关概念

跨模态重构

在给定跨模态数据的情况下联结输入特征表示，然后相互重构各模态数据且保留重构信息，最后比较重构信息与原始信息相似性的过程。

细粒度数据

指信息非常详细具体的数据。数据粒度指数据的详细程度，粒度越小，数据的信息越具体，越容易在机器学习中把握数据的规律与本质。

无监督学习

指事先没有任何训练数据样本而需要直接对数据建模的学习方法。无监督学习仅使用共现信息来学习跨模态数据的公共表示。共现信息指在多模态文档中所共存的不同形式的数据具有相同的语义。

监督学习

指通过有标记的训练数据来推断或建立一个最优模型的学习方法。监督学习利用标签信息来学习公共表示，强制不同类别样本的学习表示距离尽可能远，而相同类别样本的学习表示尽可能接近。

端到端学习

也称端到端训练，指在学习过程中缩减人工预处理和后续处理，使模型从原始输入直接到最终输出。其训练数据为“输入-输出”对的形式，无需提供其它额外信息。端到端学习为模型提供了更多根据数据自动调节的空间，增加了模型的整体契合度。

四、相关网络结构

自编码器模型（AE）

https://blog.csdn.net/qq_53144843/article/details/122958467

受限玻尔兹曼机模型（RBM）

模拟退火：解决算法容易陷入局部最优的问题。详细介绍参考下面的博客：

https://blog.csdn.net/weixin_42398658/article/details/84031235

Hopfield神经网络：能模拟联想记忆能力，按动力学方式运行。详细介绍参考下面的博客：

https://blog.csdn.net/weixin_42398658/article/details/83991773

玻尔兹曼机（Boltzmann机）：模拟退火算法和Hopfield神经网络结合在一起就是玻尔兹曼机。

受限玻尔兹曼机：RBM是Boltzmann机器的特殊类别，它们在可见单元和隐藏单元之间的连接方面受到限制。详细介绍参考下面的博客：

https://blog.csdn.net/weixin_42398658/article/details/84279293

深度信念网络（DBN）

协同过滤：一般是在海量的用户中发掘出一小部分和你品味比较类似的，在协同过滤中，这些用户成为邻居，然后根据他们喜欢的其他东西组织成一个排序的目录作为推荐给你。

生成式模型，判别式模型：

DBN：简单理解就是由受限玻尔兹曼机搭建起来的网络，详细介绍看下面的链接内容。

http://t.zoukankan.com/jiangkejie-p-11179680.html

https://blog.csdn.net/jiguquan3839/article/details/82993896

注意力机制（attention）

注意力机制：核心是关注重点的信息，忽略掉不重点的信息。

https://www.zhihu.com/question/68482809/answer/264632289

https://www.bilibili.com/video/BV1nL4y1j7hA?spm_id_from=333.337.search-card.all.click

生成对抗网络（GAN）

Generative：生成式模型

Adversarial：采取对抗的策略

Networks：网络（不一定是深度学习）

https://blog.csdn.net/m0_53155317/article/details/122802298

CNN，BRNN，WCNN，RNN，RCNN

CNN：卷积神经网络

https://zhuanlan.zhihu.com/p/47184529

RCNN:区域卷积网络

https://blog.csdn.net/xyfengbo/article/details/70227173

RNN:递归神经网络

https://blog.csdn.net/qq_32241189/article/details/80461635

BRNN：双向递归神经网络

https://blog.csdn.net/hxxjxw/article/details/108676788

秃头研究生

关注

16
点赞
踩
80

收藏

觉得还不错? 一键收藏
0
评论
跨模态检索

目录一、定义二、分类基于特征表示方法基于图文匹配的方法三、相关概念四、相关网络结构五、相关文献一、定义通过一种模态样本来检索具有近似语义的另一种模态样本。跨模态学习是多模态学习的分支。跨模态检索训练过程中所有模态的数据都存在，但在测试过程中只有一种模态可用。挑战：如何度量不同模态数据之间的内容相似性，也称之为异质鸿沟问题。二、分类基于实值表示学习：提升跨模态语义相关性，进而提高跨模态检索准确度。基于二进制表示学习：提升跨模态图文检索效率，减少
复制链接

扫一扫