SDML:Scalable Deep Multimodal Learning for Cross-Modal Retrieval 阅读笔记
2019--
SIGIR--有代码
摘要:跨模态检索以一种类型数据作为查询来检索另一种类型的相关数据。大多数现有的跨模态检索方法都被提出以联合方式学习一个共同的子空间,在整个训练过程中必须涉及来自所有模式的数据。对于这些方法,不同模态特定变换的最优参数相互依赖,在处理来自新模态的样本时,必须对整个模型进行重新训练。本文提出了一种新的跨模态检索方法,即可伸缩深度多模态学习(SDML)。它提出预定义一个公共子空间,其中类之间的变化最大,而类内的变化最小。然后,训练m模态的特定网络(每个模态都有一个网络),将多模态数据转换为预定义的公共子空间,以实现多模态学习。与现有的许多方法不同,我们的方法可以独立地训练不同的模态特定的网络,因此可扩展到模态的数量。据我们所知,所提出的SDML可能是第一批将不固定数量的模式的数据独立投影到一个预定义的公共子空间中的工作之一。在四个广泛使用的基准数据集上进行的综合实验结果表明,该方法在多模态学习方面非常有效,在跨模态检索方面优于最先进的方法。
模型图:
![](https://img-blog.csdnimg.cn/2021042319323376.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQwNjgwMzA5,size_16,color_FFFFFF,t_70)
算法流程图:
![](https://img-blog.csdnimg.cn/20210423193304507.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQwNjgwMzA5,size_16,color_FFFFFF,t_70)
公式:
![](https://img-blog.csdnimg.cn/20210423193519554.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQwNjgwMzA5,size_16,color_FFFFFF,t_70)
个人总结:
非哈希方法,与SVHN作者相同,都强调自己的方法是特定与模态的。这个论文思路比较简单,一个编码器编码成h,h再解码与x计算loss。h与P矩阵相乘与标签y计算loss。P矩阵论文中说是随机生成的,应该从始至终不变。测试的时候,只用编码器,用编码器的输出之间的余弦矩阵来计算相似性。