论文浅尝 - ICML2020 | 跨域对齐的图最优运输算法

最新推荐文章于 2025-03-24 20:31:14 发布

开放知识图谱

最新推荐文章于 2025-03-24 20:31:14 发布

阅读量3.6k

点赞数 8

文章标签：大数据算法 python 计算机视觉机器学习

本文链接：https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/110151895

版权

本文介绍了浙江大学陈卓博士的ICML 2020论文，提出了一种新的图最优运输（GOT）算法解决跨域对齐问题。传统方法依赖于注意力机制，而GOT通过引入Wasserstein和Gromov-Wasserstein距离，实现了对节点和边的匹配，适用于图像-文本等跨模态任务。实验表明，GOT在多个任务上提高了性能，且具有更好的解释性和可解释性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

陈卓，浙江大学在读博士，主要研究方向为图神经网络和知识图谱表示学习。

论文链接：https://arxiv.org/pdf/2006.14744

代码：https://github.com/LiqunChen0606/Graph-Optimal-Transport

发表会议：ICML 2020

动机

该论文的出发点基于前人工作的局限，认为当前存在的跨域对齐方法主要是采用各种先进的注意力机制来模拟软对齐，但是传统的注意力机制是由特定下游任务的loss进行监督和引导的，而没有明确考虑对齐本身的的训练信号。并且，往往学习到的注意力矩阵会比较稠密，缺乏可解释性。所以作者提出了图最优运输算法这样一个新的框架，通过把最优运输应用在图匹配上来处理跨域问题。

同时，这个算法与现有的神经网络模型具有很好的兼容性，可以直接作为drop-in正则化项加入到原来的模型中。通过这样一个通用的正则化系数，在两个域对齐程度低的的pair上施加更多的惩罚，这对于机器翻译，图像注释，以及图像-文本跨模态检索等需要匹配的场景，效果提升是比较make sense的。

最后，这个论文的很大一个亮点在于通用性，作者在5个task上对于不同的模型做了相关实验，使用了GOT方法后全部取得了效果提升。后面大部分篇幅也用在实验上。

背景设定

这里的跨域对齐可能与跨知识图谱数据库对齐的不太一样。因为本文所指的跨域是特指跨模态的。对于两个不同的domain Dx和Dy，分别考虑其中的一个数据集如X tilde（和Y tilde，其中每一个entity都可以由一个特征向量表示。n和m代表该domain下数据集中的entity数量。

文中所讨论的范围主要集中于涉及图像和文本的任务，因此此处的实体可以对应于图像中的对象或句子中的单词。图像可以=表示为一组检测到的对象，每个对象都与一个特征向量相关联，而一个句子则可以被一串word embedding表示。在通用场景下，一个深度神经网络fθ会被设计接收以上的X tilde和Y tilde并用来生成当前语境下的数据表示X和Y。这里的fθ可以是很多模型，θ是模型参数。最后监督信号l将会被用来进行参数θ的学习。训练目标可以简化为这个

最低0.47元/天解锁文章