编号 | 文章信息 | 背景、目的及结论 | 结果与讨论 | 文章好在哪里 | 自我想法 | 链接 |
1 | 题目:Multimodal Disentanglement Variational AutoEncoders for Zero-Shot Cross-Modal Retrieval | 背景:1、难以测量不同模态之间的相似性;2、传统CMR方法在不可见类的多模态数据方面效果不佳;3、目前还未有零样本图像文本检索的解耦方法;4、关于ZS-CMR目前主要是辅助语义嵌入,忽略了数据重构方式的影响。 | 通过对四个图像文本检索和两个图像草图检索数据集的综合实验,MDVAE性能最佳。 | 1、改变数据重构方式,提出新的ZS-CMR模型——多模态解耦变分自动编码器MD-VAE | 1个思路:数据重构方式、由两个DVAE和一个FVAE组成 | ..\机器学习深度学习\Multimodal Disentanglement Variational AutoEncoders for Zero-Shot Cross-Modal Retrieval.pdf |
作者:Jialin Tian,Kai Wang | 目的:从数据重构方式入手,增强模态不变特征的信息性和概括性,更有效地进行知识转移。 | 2、一种改进的反直觉交叉重构方案CICR | 1个句式:Our MD-VAE approach consistently achieves the best retrieval performance and shows a significant improvement overall compared methods without using semantic embeddings. | |||
单位:Center for Future Media & School of Computer Science and Engineering University of Electronic Science and Technology of China Chengdu, China | 结论:MDVAE的有效性;引入融合交换的VAE来捕获跨模态的相关性,无需语义嵌入;CICR的改进 | 2种图 | ||||
期刊:SIGIR | 局限性:MDVAE仅用于图像文本和图像草图检索任务,对其他多模态数据的零点检索场景还有待考察。 | |||||
4类主流跨模态检索方法,后面可以根据这篇综述的顺序,继续了解各种方法的基本思想。 | 跨模态检索研究综述_欧卫华.pdf | |||||
2个图 | A Comprehensive Survey on Cross-modal.pdf | |||||
图中相同的形状表示相同的类别,相同的颜色表示相同的模态 | ||||||
结合深度学习和哈希学习进行跨模态检索,或许可以得到更优质的多模态语义相关模型。 | ||||||
采取控制变量(常见的数据集、相同的CNN特征)对比评估跨模态检索方法。 | 跨模态检索研究文献综述.pdf | |||||
1个图 | ||||||