《Adversarial Cross-Modal Retrieval》阅读笔记

论文地址:

https://www.researchgate.net/publication/320541510_Adversarial_Cross-Modal_Retrieval​www.researchgate.net

来源:ACM Multimedia 2017

作者:电子科技大学英才实验学院2014级本科生王泊锟同学以第一作者身份发表,获ACM Multimedia 2017会议最佳论文奖。

一、Introduction

该论文基于对抗学习机制在不同模态之间互相作用获得一个有效的共享子空间,提出了一种新颖对抗性的跨模态检索(ACMR)方法,用于跨模态检索任务。

对抗学习机制是基于两个不同的过程之间的相互作用实现的。

1.第一个过程是一个特征映射器,尝试在共享子空间中产生模型不变的表示来混淆另一个过程。再对特征投影施加三元组约束,以最小化具有相同语义标签的不同模态的所有项目的特征向量之间的距离,同时最大化相同语义上不同的图像和文本特征向量之间的距离。

2.后者是一个模态分类器,主要基于第一个过程中产生的特征表示信息对不同模态进行区分。论文在四个公开的数据集上进行了有效性实验,其性能明显优于其他跨模态检索方法。

文章要做的事情(cross-media retrieval):

输入:image(sentence)+dataset      输出:sentence(image)rank list

二、Contributions:

1.框架的核心是两个过程之间的相互作用,一个特征映射器和一个模态分类器,特征映射器为公共子空间中的不同模态的项目生成模态不变表示。其目的是混淆充当对手的模态分类器。模态分类器试图根据其模态区分项目,并以这种方式控制特征映射器的学习。通过将模态分类器置于对手角色中。当模态分类器无法分辨时结束。

2.训练特征投影仪,使得它共同执行标签预测并在数据中保留底层的跨模态语义结构。通过这种方式,它可以确保学习的特征既可以在模态中进行区分,也可以在模态之间进行不变。

三、Model:

ACMR Model

1.左侧输入是Image和Text

Image:VGG-fc7的输出作为特征v_iv_i

Text:利用简单的BoW(TF-IDF)作为特征

  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 19
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 19
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值