理想的跨模态公共表示:
1、很强的语义辨别能力:要有效的增强不同模态的语义一致性(即无论数据来自哪个模态,只要他们在语义上相同,共同表达就应该相似)
2、减少的模态的异质性差异(要让生成的共同表达只与语义相关,与模态无关)
这两篇文章都是将大规模的数据集(imagenet)迁移到小规模的跨模态数据集中,解决跨模态数据集数据规模不足的问题,以更好地进行跨模态检索。
一、Cross-modal Common Representation Learning by Hybrid Transfer Network
1. Introduction:
本文提出了一个具有两个子网的跨模态传输模型。
跨模态混合迁移网络(CHTN):
模态共享迁移子网:利用源域和目标域都有的模态(图像)作为桥梁,将源域的知识传给目标域的两种模态。
层共享关联子网:保留了固有的跨模态语义相关性,以进一步适应跨模态检索任务。
2. Models:
2.1 模态共享迁移子网(Modal-sharing Transfer Subnetwork):
首先,图像用AlexNet的五个卷积层(conv1-conv5)得到卷积特征并且接收文本向量;然后,图像特征映射和文本经过两个全连接层,在全连接层中进行知识迁移。
单模态知识迁移(Single-modal knowledge transfer):
使用特征自适应的方法(feature adaptation method),最小化源域和目标域之间的最大平均差异 (