《Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models》

最新推荐文章于 2022-10-14 22:02:29 发布

黄鑫huangxin

最新推荐文章于 2022-10-14 22:02:29 发布

阅读量2.3k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33373858/article/details/81509585

版权

CVPR2018发表的Spotlight论文，首次结合GAN和RL做跨媒体检索。GXN模型包含Look、Imagine、Match三步，学习高层抽象和底层特征，提升跨模态图像标题检索性能，实现在MSCOCO上的最优表现。

摘要由CSDN通过智能技术生成

来源：CVPR2018

一、Introduction

第一篇同时利用GAN和Reinforcement Learning(RL)做跨媒体检索的文章。
这个网络可以同时做三个跨媒体的任务：cross-media retrieval，image caption and text-to-image synthesis（对于后两个任务，文章只给出了可视化的结果，没有给出定量的分析）。
这篇文章发表在CVPR2018上并且是Spotlight，在MSCOCO上cross-media retrieval的性能达到state-of-the-art。

文章要做的事情（cross-media retrieval）：

输入：image（sentence）+dataset 　　　　　输出：sentence（image）rank list

文中将生成过程结合到跨模态特征嵌入中，通过该方法我们不仅可以学习全局抽象特征还有局部层次特征。

二、Contributions:

1.我们将两个生成模型结合到传统的文本-视觉特征嵌入中。

2.对基准数据集MSCOCO进行了广泛的实验。实验表明，底层和抽象特征的组合可以显著改善跨模态图像标题检索的性能。

三、Model：

GXN模型的主旨:

主要包含三个步骤：Look、Imageine、Match

Look：给出一个查询文本或图像，提取出对应的抽象表示。

Image:将第一步中得到的一种模态的特征表示生成为另一种模态表示，并将其和真实数据进行比较来生成一个更加精细的底层表示。

Match:使用组合了高层抽象表示和局部底层表示的特征表示来进行图像-文本对的关联匹配。

提出的生成式跨模态特征学习框架

（generative cross-modal feature learning framework，GXN）

1、第一个部分相似于已经存在的跨模态特征表示:将不同模态的特征映射到一个公共的空间；不同之处在于本文使用了两路的特征表示来使表示出的视觉特征和文本特征接近。

作为高层抽象特征而

作为精细的的底层特征。底层特征被用来指导其

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。