ACM MM18 | 用于跨模态检索的综合距离保持自编码器

最新推荐文章于 2021-07-22 10:33:18 发布

PaperWeekly

最新推荐文章于 2021-07-22 10:33:18 发布

阅读量1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/88414745

版权

本文介绍了ACM MM18会议上的一篇研究，提出了一种称为综合距离保持自编码器（CDPAE）的方法，用于无监督的跨模态检索。CDPAE通过考虑成对、异构和齐次表示距离，提高了检索精度，解决了无监督方法中的噪声冗余和关系表达问题。实验结果显示，CDPAE在多个数据集上的性能优于现有无监督方法，甚至与半监督和有监督方法相当。

摘要由CSDN通过智能技术生成

640

作者丨黄澄楷

研究方向丨多媒体信息检索/内容理解

本文是发表在 MM18 上的一篇跨模态检索文章，作者提出了一种采用综合保持距离的自编码器（CDPAE）的新颖方法，用以解决无监督的跨模态检索任务。

640?wx_fmt=png

640?wx_fmt=png

之前的无监督方法大部分使用属于相同对象的跨模态空间的成对表示距离进行度量学习。但是，除了成对距离之外，作者还考虑了从跨媒体空间提取的异构表示距离，以及从属于不同对象的单个媒体空间提取的齐次表示距离，从而达到了更高的检索精度。

研究动机

虽然先前的无监督跨模态检索方法已经有了不错的表现，但是仍然有两个问题叩待解决，第一，如何减少特征中冗余的噪声的负面影响。

640?wx_fmt=png

▲ 背景中的SIFT特征会影响Cat图像的检索

第二，如何直接使用不同对象的表示（representation）来表达它们之间的关系（relationship）。

640?wx_fmt=png

即在大多数非监督方法中，不考虑虚线的关系。这两个问题在无监督跨模态检索的研究中涉及的较少。

研究方法

640?wx_fmt=png

上图就是作者提出的 CDPAE 的框架结构图，总体上看，CDPAE 包含四个并行的去噪编码器，并定义了综合的保距公共空间，其中根据输入保留三种距离，然后使用联合损失函数将自编码器的重构损失和相关损失结合起来。最后，还提出了一种无监督跨模态相似度的度量方法。

具体来看，CDPAE 包含四个部分：去噪编码器、综合保距空间、联合损失函数和无监督跨模态相似度测量，由于数据集的限制，本文与大部分其他跨模态检索任务一样，只进行图文互搜的实验。接下来分别对每个部分进行介绍。

1. CDPAE 的第一部分由四个去噪编码器组成，其中两个提取图像相关的特征，另外两个与文本特征相关，去噪的自编码器负责相同的模态，它们共享相同的参数，因此相同模态的表示也具有相同的转换。

在具体的训练迭代中，从两个对象中提取的两种模式之间的四种表示形式用作输入。如：图中海鸥图、描述海鸥图的文本、自行车图、描述自行车的文本作为输入。

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。