ACM MM18 | 用于跨模态检索的综合距离保持自编码器

本文介绍了ACM MM18会议上的一篇研究,提出了一种称为综合距离保持自编码器(CDPAE)的方法,用于无监督的跨模态检索。CDPAE通过考虑成对、异构和齐次表示距离,提高了检索精度,解决了无监督方法中的噪声冗余和关系表达问题。实验结果显示,CDPAE在多个数据集上的性能优于现有无监督方法,甚至与半监督和有监督方法相当。
摘要由CSDN通过智能技术生成

640


作者丨黄澄楷

研究方向丨多媒体信息检索/内容理解


本文是发表在 MM18 上的一篇跨模态检索文章,作者提出了一种采用综合保持距离的自编码器(CDPAE)的新颖方法,用以解决无监督的跨模态检索任务。


640?wx_fmt=png


640?wx_fmt=png


之前的无监督方法大部分使用属于相同对象的跨模态空间的成对表示距离进行度量学习。但是,除了成对距离之外,作者还考虑了从跨媒体空间提取的异构表示距离,以及从属于不同对象的单个媒体空间提取的齐次表示距离,从而达到了更高的检索精度。


研究动机


虽然先前的无监督跨模态检索方法已经有了不错的表现,但是仍然有两个问题叩待解决,第一,如何减少特征中冗余的噪声的负面影响。


640?wx_fmt=png

 背景中的SIFT特征会影响Cat图像的检索


第二,如何直接使用不同对象的表示(representation)来表达它们之间的关系(relationship)。


640?wx_fmt=png


即在大多数非监督方法中,不考虑虚线的关系。这两个问题在无监督跨模态检索的研究中涉及的较少。


研究方法


640?wx_fmt=png


上图就是作者提出的 CDPAE 的框架结构图,总体上看,CDPAE 包含四个并行的去噪编码器,并定义了综合的保距公共空间,其中根据输入保留三种距离,然后使用联合损失函数将自编码器的重构损失和相关损失结合起来。最后,还提出了一种无监督跨模态相似度的度量方法。 


具体来看,CDPAE 包含四个部分:去噪编码器、综合保距空间、联合损失函数和无监督跨模态相似度测量,由于数据集的限制,本文与大部分其他跨模态检索任务一样,只进行图文互搜的实验。接下来分别对每个部分进行介绍。


1. CDPAE 的第一部分由四个去噪编码器组成,其中两个提取图像相关的特征,另外两个与文本特征相关,去噪的自编码器负责相同的模态,它们共享相同的参数,因此相同模态的表示也具有相同的转换。


在具体的训练迭代中,从两个对象中提取的两种模式之间的四种表示形式用作输入。如:图中海鸥图、描述海鸥图的文本、自行车图、描述自行车的文本作为输入。 


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值