![bf1688528e119d25eb5cc93aa3b1939c.png](https://img-blog.csdnimg.cn/img_convert/bf1688528e119d25eb5cc93aa3b1939c.png)
《Graph Matching Networks for Learning the Similarity of Graph Structured Objects》
这是我去年读的一篇文章,发表在ICML2019上,现在回过头来看觉得实在是好,而且坚持写博客的驱动下,还是想好好再读一下,顺便整理。
原文连接:https://arxiv.org/abs/1904.12787
slide:http://www.cs.toronto.edu/~yujiali/files/talks/icml19_gmn.pdf
poster:http://www.cs.toronto.edu/~yujiali/files/posters/icml19_gmn_poster.pdf
code:https://github.com/deepmind/deepmind-research/tree/master/graph_matching_networks
摘要
本文针对图结构对象的检索与匹配这一具有挑战性的问题,做出了两个关键的贡献。
首先,GNN已经成为定义在结构化数据上的各种有监督预测问题的有效模型,我们演示了如何训练图神经网络(GNN),使其能够在向量空间中生成图的嵌入,从而实现有效的相似推理。
其次,提出了一种新的图匹配网络模型,该模型以一对图为输入,通过一种新的基于cross-graph attention的匹配机制,通过对图进行联合推理,计算出它们之间的相似度。
我们证明了我们的模型在不同领域的有效性,包括基于控制流图的功能相似性搜索的挑战性问题,这个问题在软件系统漏洞检测中起着重要的作用。实验分析表明,我们的模型不仅可以在相似性学习的背景下利用结构,而且可以优于针对这些问题精心设计的领域特定的baseline。
1. Introduction
图是对在许多领域中遇到的关系结构进行编码的自然表示。预期,在图结构数据上定义的计算被广泛应用于各种领域,从用于计算生物学和化学的分子分析(Gilmer等人,2017;Yan等人,2005),到用于自然语言理解的知识图或图结构解析的分析。
在过去的几年中,图神经网络(GNNs)已经成为学习结构化数据表示和解决各种有监督预测问题的有效模型。通过迭代聚合局部结构信息的传播过程计算图节点表示,此类模型对图中的元素具有排列不变性(Scarselli et al.,2009;Li et al.,2015;Gilmer et al.,2017)。然后,这些节点表示直接用于节点分类,或者合并到一个图向量中用于图分类。对于GNNs而言,监督分类或回归之外的问题研究得相对较少。
本文研究了图结构对象的相似性学习问题,该问题出现在许多重要的现实应用中,特别是在图数据库中基于相似性的检索中。一个有动机的应用是二进制函数相似性搜索的计算机安全问题,当给定一个二进制文件可能包含或不包含具有已知漏洞的代码时,我们希望检查该二进制文件中的任何控制流图是否与已知易受攻击函数的数据库足够相似。这有助于识别closedsource软件中易受攻击的静态链接库,这是一个反复出现的问题(CVE,2010;2018),目前没有好的解决方案。图1显示了这个应用程序中的一个示例,其中二进制函数表示为用汇编指令注释的控制流图。这种相似性学习问题是非常具有挑战性的,因为细微的差异可以使两个图在语义上非常不同,而具有不同结构的图仍然可以是相似的。因此,一个成功的模型应该:(1)利用图的结构(2)能够从图的结构和学习的语义来推理图的相似性。
为了解决图的相似性学习问题,我们研究了GNNs在这一背景下的应用,探讨了GNNs如何将图嵌入到向量空间中,并学习了这种嵌入模型,使相似图在向量空间中更接近,而不同图之间的距离更远。该模型的一个重要性质是,它将每个图独立地映射到一个嵌入向量,然后所有的相似度计算都在向量空间中进行。因此,图在大型数据库中的嵌入可以被预先计算和索引,这使得我们能够使用快速近邻搜索进行高效检索,如k-d树(Bentley,1975)或局部敏感哈希(Gionis等人,1999)。
我们进一步提出了对GNNs的一个扩展,我们称之为图匹配网络(GMNs),用于相似性学习。GMNs不是为每个图单独计算图的表示,而是通过cross-graph attention机制计算相似度得分,以便跨图关联节点并识别差异。通过使图的表示计算更加依赖于“成对的图”,该匹配模型比嵌入模型更加强大,提供了一个很好的精度计算权衡。
我们在三个任务上评估了所提出的模型和baseline:一个只捕获结构相似性的合成图edit-distance学习任务,以及两个需要对结构相似性和语义相似性进行推理的现实任务,即二元函数相似性搜索和网格检索。在所有任务中,本文提出的方法都优于已有的baseline和结构不可知模型;在更详细的ablation studies中,我们发现图匹配网络始终优于图嵌入模型和Siamese网络。
综上所述,本文的