Dual Adversarial Graph Neural Networks for Multi-label Cross-modal Retrieval 论文笔记

Dual Adversarial Graph Neural Networks for Multi-label Cross-modal Retrieval

AAAI2021 跨模态方向的论文。
我终于也开始刷这种新的论文啦,不过第一篇(理论上是第二篇,之前看过一个图构建局部语义的)就面临大挑战,因为它使用的是NUS-WIDE和MIRFlickr数据集,评价指标用的是mAP,这和我往常看到的SCAN之类的图文matching方法用到的数据集MSCOCO和Flickr30K似乎不是很相似。说不定这是两个不同的领域?
闲话少说,开始记录笔记了。

MOTIVATION

  1. 模态共同表示映射过程中一些modality-specific features可能难以被消除,这导致了性能下降。(话说我还看过好几篇也是说这个问题的,解决方法也是对抗网络或者域自适应)
  2. 标签之间的信息应该是具有联系的。比如说出现‘Snow’的时候可能‘Plant’出现的概率就比较低,捕获这些先验信息来指导模型训练应该是有意义的。

CONTRIBUTION

  1. 提出了使用两个Dual GAN(小伙子长得挺像自编码器)分别为文本和图像生成表示并根据生成表示生成fake representation。通过生成对抗的方法消除文本和图像表示中的modality-specific features。
  2. 提出了一个multi-hop graph neural networks(大概是,类似图神经网络中的resnet,那岂不是还能来一个图神经网络中的densely net)来学习标签之间的相关性。

Methodology

在这里插入图片描述
双生成对抗神经网络
结构如图所示,其中中间的Common representation就是最终生成的编码了,使用了VGGNet和MLP来分别获取image和text的特征表示v,t,随后用G1生成Common representation vi,ti。
对于dual generative来说,随后使用G2再生成fake的针对另外一个模态数据的表示vf,tf。通过对抗网络,迫使backbone生成的v和vf相似,由于vf不可能带有另外一个模态的modality-specific features,backbone被迫往不提取modality-specific features方向下降。
多跳图神经网络(机翻,不知道multi-hop该翻啥)
在这里插入图片描述
类似上图,该论文以标签作为图的vertices,并以标签之间的条件概率(它的条件概率控制了一个阈值,低于阈值为0,用于避免长尾效应)作为边权重,最后得到concate每一层的feature,如下:
在这里插入图片描述
使用这个feature和vi,ti计算分类损失。

OBJECTIVE FUNCTION

分类损失(用于multi-hop和G1()):
在这里插入图片描述
模态不变性损失(相同类别时,应该具有较高的相似度,所以根据余弦距离降低惩罚。反之则应该根据余弦相似性进行惩罚):
在这里插入图片描述
GAN的损失):
在这里插入图片描述
其中:
没有^符号的是一个one-hot向量
整个模型的目标函数定义:
在这里插入图片描述

EXPERIMENT

只看到几篇用这个数据集的论文,不是很懂为什么不是用R@N作为评价指标,而且这篇论文对比的方法最新的都是2019年的论文了。
在这里插入图片描述

  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值