Dual Adversarial Graph Neural Networks for Multi-label Cross-modal Retrieval 论文笔记

最新推荐文章于 2023-03-09 20:14:53 发布

weixin_42863990

最新推荐文章于 2023-03-09 20:14:53 发布

阅读量769

点赞数 4

文章标签：神经网络深度学习自然语言处理

本文链接：https://blog.csdn.net/weixin_42863990/article/details/120543847

版权

Dual Adversarial Graph Neural Networks for Multi-label Cross-modal Retrieval

AAAI2021 跨模态方向的论文。
我终于也开始刷这种新的论文啦，不过第一篇(理论上是第二篇，之前看过一个图构建局部语义的)就面临大挑战，因为它使用的是NUS-WIDE和MIRFlickr数据集，评价指标用的是mAP，这和我往常看到的SCAN之类的图文matching方法用到的数据集MSCOCO和Flickr30K似乎不是很相似。说不定这是两个不同的领域？
闲话少说，开始记录笔记了。

MOTIVATION

模态共同表示映射过程中一些modality-specific features可能难以被消除，这导致了性能下降。（话说我还看过好几篇也是说这个问题的，解决方法也是对抗网络或者域自适应）
标签之间的信息应该是具有联系的。比如说出现‘Snow’的时候可能‘Plant’出现的概率就比较低，捕获这些先验信息来指导模型训练应该是有意义的。

CONTRIBUTION

提出了使用两个Dual GAN(小伙子长得挺像自编码器)分别为文本和图像生成表示并根据生成表示生成fake representation。通过生成对抗的方法消除文本和图像表示中的modality-specific features。
提出了一个multi-hop graph neural networks(大概是，类似图神经网络中的resnet，那岂不是还能来一个图神经网络中的densely net)来学习标签之间的相关性。

Methodology

在这里插入图片描述
双生成对抗神经网络
结构如图所示，其中中间的Common representation就是最终生成的编码了，使用了VGGNet和MLP来分别获取image和text的特征表示v,t，随后用G1生成Common representation vi,ti。
对于dual generative来说，随后使用G2再生成fake的针对另外一个模态数据的表示vf,tf。通过对抗网络，迫使backbone生成的v和vf相似，由于vf不可能带有另外一个模态的modality-specific features，backbone被迫往不提取modality-specific features方向下降。
多跳图神经网络(机翻，不知道multi-hop该翻啥)
在这里插入图片描述
类似上图，该论文以标签作为图的vertices，并以标签之间的条件概率（它的条件概率控制了一个阈值，低于阈值为0，用于避免长尾效应）作为边权重，最后得到concate每一层的feature，如下：

使用这个feature和vi，ti计算分类损失。

OBJECTIVE FUNCTION

分类损失（用于multi-hop和G1()）：
在这里插入图片描述
模态不变性损失（相同类别时，应该具有较高的相似度，所以根据余弦距离降低惩罚。反之则应该根据余弦相似性进行惩罚）：

GAN的损失）：

其中：
没有^符号的是一个one-hot向量
整个模型的目标函数定义：
在这里插入图片描述

EXPERIMENT

只看到几篇用这个数据集的论文，不是很懂为什么不是用R@N作为评价指标，而且这篇论文对比的方法最新的都是2019年的论文了。
在这里插入图片描述

weixin_42863990

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
4
评论
Dual Adversarial Graph Neural Networks for Multi-label Cross-modal Retrieval 论文笔记

Dual Adversarial Graph Neural Networks for Multi-label Cross-modal RetrievalAAAI2021 跨模态方向的论文。我终于也开始刷这种新的论文啦，不过第一篇(理论上是第二篇，之前看过一个图构建局部语义的)就面临大挑战，因为它使用的是NUS-WIDE和MIRFlickr数据集，评价指标用的是mAP，这和我往常看到的SCAN之类的图文matching方法用到的数据集MSCOCO和Flickr30K似乎不是很相似。说不定这是两个不同的领域
复制链接

扫一扫