《Adversarial Cross-Modal Retrieval》阅读笔记

最新推荐文章于 2023-03-09 20:14:53 发布

黄鑫huangxin

最新推荐文章于 2023-03-09 20:14:53 发布

阅读量7.6k

点赞数 2

分类专栏：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33373858/article/details/81837084

版权

论文地址：

https://www.researchgate.net/publication/320541510_Adversarial_Cross-Modal_Retrievalwww.researchgate.net

来源：ACM Multimedia 2017

作者：电子科技大学英才实验学院2014级本科生王泊锟同学以第一作者身份发表，获ACM Multimedia 2017会议最佳论文奖。

一、Introduction

该论文基于对抗学习机制在不同模态之间互相作用获得一个有效的共享子空间，提出了一种新颖对抗性的跨模态检索（ACMR）方法，用于跨模态检索任务。

对抗学习机制是基于两个不同的过程之间的相互作用实现的。

1.第一个过程是一个特征映射器，尝试在共享子空间中产生模型不变的表示来混淆另一个过程。再对特征投影施加三元组约束，以最小化具有相同语义标签的不同模态的所有项目的特征向量之间的距离，同时最大化相同语义上不同的图像和文本特征向量之间的距离。

2.后者是一个模态分类器，主要基于第一个过程中产生的特征表示信息对不同模态进行区分。论文在四个公开的数据集上进行了有效性实验，其性能明显优于其他跨模态检索方法。

文章要做的事情（cross-media retrieval）：

输入：image（sentence）+dataset 　　　　　输出：sentence（image）rank list

二、Contributions:

1.框架的核心是两个过程之间的相互作用，一个特征映射器和一个模态分类器，特征映射器为公共子空间中的不同模态的项目生成模态不变表示。其目的是混淆充当对手的模态分类器。模态分类器试图根据其模态区分项目，并以这种方式控制特征映射器的学习。通过将模态分类器置于对手角色中。当模态分类器无法分辨时结束。

2.训练特征投影仪，使得它共同执行标签预测并在数据中保留底层的跨模态语义结构。通过这种方式，它可以确保学习的特征既可以在模态中进行区分，也可以在模态之间进行不变。

三、Model：

ACMR Model

1.左侧输入是Image和Text

Image：VGG-fc7的输出作为特征 v_i v_i

Text：利用简单的BoW（TF-IDF）作为特征

最低0.47元/天解锁文章

关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
19
评论
《Adversarial Cross-Modal Retrieval》阅读笔记

论文地址：https://www.researchgate.net/publication/320541510_Adversarial_Cross-Modal_Retrievalwww.researchgate.net来源：ACM Multimedia 2017作者：电子科技大学英才实验学院2014级本科生王泊锟同学以第一作者身份发表，获ACM Multimedia 2017会议最佳...
复制链接

扫一扫

专栏目录

评论 19

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。