《Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models》

来源:CVPR2018

一、Introduction

  • 第一篇同时利用GAN和Reinforcement Learning(RL)做跨媒体检索的文章。
  • 这个网络可以同时做三个跨媒体的任务:cross-media retrieval,image caption and text-to-image synthesis(对于后两个任务,文章只给出了可视化的结果,没有给出定量的分析)。
  • 这篇文章发表在CVPR2018上并且是Spotlight,在MSCOCO上cross-media retrieval的性能达到state-of-the-art。

文章要做的事情(cross-media retrieval):

输入:image(sentence)+dataset      输出:sentence(image)rank list

 

文中将生成过程结合到跨模态特征嵌入中,通过该方法我们不仅可以学习全局抽象特征还有局部层次特征。

二、Contributions:

1.我们将两个生成模型结合到传统的文本-视觉特征嵌入中。

2.对基准数据集MSCOCO进行了广泛的实验。实验表明,底层和抽象特征的组合可以显著改善跨模态图像标题检索的性能。

三、Model:

GXN模型的主旨:

主要包含三个步骤:Look、Imageine、Match

Look:给出一个查询文本或图像,提取出对应的抽象表示。

Image:将第一步中得到的一种模态的特征表示生成为另一种模态表示,并将其和真实数据进行比较来生成一个更加精细的底层表示。

Match:使用组合了高层抽象表示和局部底层表示的特征表示来进行图像-文本对的关联匹配。

提出的生成式跨模态特征学习框架

(generative cross-modal feature learning framework,GXN)

1、第一个部分相似于已经存在的跨模态特征表示:将不同模态的特征映射到一个公共的空间;不同之处在于本文使用了两路的特征表示来使表示出的视觉特征和文本特征接近。

作为高层抽象特征而

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值