Dual Adversarial Graph Neural Networks for Multi-label Cross-modal Retrieval
AAAI2021 跨模态方向的论文。
我终于也开始刷这种新的论文啦,不过第一篇(理论上是第二篇,之前看过一个图构建局部语义的)就面临大挑战,因为它使用的是NUS-WIDE和MIRFlickr数据集,评价指标用的是mAP,这和我往常看到的SCAN之类的图文matching方法用到的数据集MSCOCO和Flickr30K似乎不是很相似。说不定这是两个不同的领域?
闲话少说,开始记录笔记了。
MOTIVATION
- 模态共同表示映射过程中一些modality-specific features可能难以被消除,这导致了性能下降。(话说我还看过好几篇也是说这个问题的,解决方法也是对抗网络或者域自适应)
- 标签之间的信息应该是具有联系的。比如说出现‘Snow’的时候可能‘Plant’出现的概率就比较低,捕获这些先验信息来指导模型训练应该是有意义的。
CONTRIBUTION
- 提出了使用两个Dual GAN(小伙子长得挺像自编码器)分别为文本和图像生成表示并根据生成表示生成fake representation。通过生成对抗的方法消除文本和图像表示中的modality-specific features。
- 提出了一个multi-hop graph neural networks(大概是,类似图神经网络中的resnet,那岂不是还能来一个图神经网络中的densely net)来学习标签之间的相关性。
Methodology
双生成对抗神经网络
结构如图所示,其中中间的Common representation就是最终生成的编码了,使用了VGGNet和MLP来分别获取image和text的特征表示v,t,随后用G1生成Common representation vi,ti。
对于dual generative来说,随后使用G2再生成fake的针对另外一个模态数据的表示vf,tf。通过对抗网络,迫使backbone生成的v和vf相似,由于vf不可能带有另外一个模态的modality-specific features,backbone被迫往不提取modality-specific features方向下降。
多跳图神经网络(机翻,不知道multi-hop该翻啥)
类似上图,该论文以标签作为图的vertices,并以标签之间的条件概率(它的条件概率控制了一个阈值,低于阈值为0,用于避免长尾效应)作为边权重,最后得到concate每一层的feature,如下:
使用这个feature和vi,ti计算分类损失。
OBJECTIVE FUNCTION
分类损失(用于multi-hop和G1()):
模态不变性损失(相同类别时,应该具有较高的相似度,所以根据余弦距离降低惩罚。反之则应该根据余弦相似性进行惩罚):
GAN的损失):
其中:
整个模型的目标函数定义:
EXPERIMENT
只看到几篇用这个数据集的论文,不是很懂为什么不是用R@N作为评价指标,而且这篇论文对比的方法最新的都是2019年的论文了。