作者丨黄澄楷
研究方向丨多媒体信息检索/内容理解
本文是发表在 MM18 上的一篇跨模态检索文章,作者提出了一种采用综合保持距离的自编码器(CDPAE)的新颖方法,用以解决无监督的跨模态检索任务。
之前的无监督方法大部分使用属于相同对象的跨模态空间的成对表示距离进行度量学习。但是,除了成对距离之外,作者还考虑了从跨媒体空间提取的异构表示距离,以及从属于不同对象的单个媒体空间提取的齐次表示距离,从而达到了更高的检索精度。
研究动机
虽然先前的无监督跨模态检索方法已经有了不错的表现,但是仍然有两个问题叩待解决,第一,如何减少特征中冗余的噪声的负面影响。
▲ 背景中的SIFT特征会影响Cat图像的检索
第二,如何直接使用不同对象的表示(representation)来表达它们之间的关系(relationship)。
即在大多数非监督方法中,不考虑虚线的关系。这两个问题在无监督跨模态检索的研究中涉及的较少。
研究方法
上图就是作者提出的 CDPAE 的框架结构图,总体上看,CDPAE 包含四个并行的去噪编码器,并定义了综合的保距公共空间,其中根据输入保留三种距离,然后使用联合损失函数将自编码器的重构损失和相关损失结合起来。最后,还提出了一种无监督跨模态相似度的度量方法。
具体来看,CDPAE 包含四个部分:去噪编码器、综合保距空间、联合损失函数和无监督跨模态相似度测量,由于数据集的限制,本文与大部分其他跨模态检索任务一样,只进行图文互搜的实验。接下来分别对每个部分进行介绍。
1. CDPAE 的第一部分由四个去噪编码器组成,其中两个提取图像相关的特征,另外两个与文本特征相关,去噪的自编码器负责相同的模态,它们共享相同的参数,因此相同模态的表示也具有相同的转换。
在具体的训练迭代中,从两个对象中提取的两种模式之间的四种表示形式用作输入。如:图中海鸥图、描述海鸥图的文本、自行车图、描述自行车的文本作为输入。