向量点积衡量相似度_讲座内容丨图结构的相似度度量与分类(文末附PPT)

本次讲座由Michalis教授讲解Graph Similarity和Classification,介绍了如何利用Graph Kernel方法计算图之间的相似度,特别是Weisfeiler-Lehman (WL) Framework和基于点向量的图相似度计算方法。他还分享了团队在IJCAI'18和CIKM'18上的研究成果,提出利用Graph Degeneracy和Successive Embeddings增强Graph Kernels的效果。此外,还提及了将文本分类转化为图分类的Shortest-path graph kernels,并提供了计算Graph Kernel的Python工具包GraKeL。
摘要由CSDN通过智能技术生成

81b779ceb4feeccdda6328f91cd9a6fa.png

前几日,来自法国LIX实验室的Michalis教授在清华大学作了题为 “Graph Similarity and Classification” 的报告。

此次讲座有直播,错过此场的讲座直播的同学请加学术君微信:AMiner308,避免错过下次讲座直播。

此次讲座PPT(严禁商用,违者必究):https://static.aminer.cn/misc/pdf/20190419.pdf

图分类,即根据图的拓扑结构预测图的标签,是图挖掘中的一个重要问题。Michalis 教授首先介绍了几个典型的图分类应用,包括文本分类,蛋白质功能预测,化合物分类,异常检测,恶意软件检测等。

452c3b4d56327fbe09326d4c116a4c00.png

图分类问题的一种解决方法是将未知标签的图和已知标签的图进行比较,通过 k 近邻的方法对图进行分类,但比较两个图的相似度是一个非常复杂的问题。

Graph Kernel 方法将机器学习中的核方法(Kernel Methods)拓展到了图结构数据上,是一类计算图与图之间相似度的方法。该方法可以高效地计算图之间的相似度,并可以方便地使用SVM等分类器进行图分类。

18a2a4dc97897bacf2d4712f1bad80d3.png

Graph Kernel 的思路是将图映射到某个 Hilbert 空间,两个图之间的相似度可以通过 Hilbert 空间中的点积运算得到。常见的 Graph Kernel 定义为图中子结构的分布,子结构包括随机游走,最短路径,环,子树,Graphlets 等。现实中图的拓扑结构非常复杂,简单的 Graph Kernel 并不能很好地解决图分类问题。

Shervashidze 等人提出了 Weifsfeiler-Lehman (WL) Framework 提高 Graph Kernel 的效果。WL方法借鉴了标签传播的思想,需要进行h次迭代过程,每次迭代会构建一个新图,图的节点标签根据上一次迭代的邻居节点标签更新,并计算更新后的Graph Kernel。WL方法中,图的相似度由 h 次迭代过程中的 Graph Kernel 综合得到。

d1d59943d2a6a003b3b3b6a82ac0d0f6.png

介绍完 Graph Kernel 的相关背景后,Michalis 介绍了他们在 Graph Kernel 上的最新研究成果。"Matching Node Embeddings for Graph Similarity"是他们在 AAAI'17 发表的工作,提出了基于点向量(Node embedding)的图相似度计算方法。

f479b0fccfb1646352d038e725379493.png

常见的 Graph Kernel 主要利用了局部的子结构信息,但缺少全局信息。该工作利用点向量计算图之间的相似度,这些点向量包含图的全局信息,而每个图表示为这些点向量的集合,然后利用 Earth Mover's Distance 和 Pyramid Match Kernel 计算图相似度。

f7273757975aae4146f1c87d606bec8c.png

“Degeneracy Framework for Graph Comparison” 是 Michalis 团队发表在 IJCAI'18 的工作,并且获得了 distinguished paper award. 该工作通过 Graph Degeneracy 过程得到每个图的一系列 k-core 子图,图的相似度由不同阶的 k-core 子图的 Graph Kernel 综合得到。该方法在多个 Benchmark 数据集上取得了 State of the Art (SoTA) 的效果。

e1b1dda2e09ac943cae7ee11b193dad4.png

"Enhancing Graph Kernels via Successive Embeddings"发表在 CIKM'18,该工作介绍了 Successive Embedding 的思想,首先将图映射到某个 Hilbert 空间 H1,接着定义一个作用在 H1 上的核函数将图在 H1 上的向量映射到新的 Hilbert 空间 H2 上,重复该过程若干次可以得到更复杂的 Graph Kernel。该方法在多个 Benchmark 数据集上都取得了不错的分类精度。

ba615c62ff88c2e98049ee9f08f84a63.png

60973f7ee403e413ae17bfea6218df92.png

最后,Michalis 介绍了 EMNLP’17 上的工作"Shortest-path graph kernels for document similarity"。该工作将文本表示成词网络,将文本分类问题转化为图分类问题。该工作还提出了基于最短路径的 Graph Kernel (SPGK) 用于计算图的相似度,并在实验中达到甚至超过了基于CNN的文本分类算法。

325777b4b1822da9a3b4f3fd720695d2.png

Michalis 团队还开发了计算 Graph Kernel 的 Python 工具包供开发人员和科研人员使用,工具包网址为https://github.com/ysig/GraKeL.

549dc9aede58a95d2f0cafc315fefd6e.png

[关于转载]:本文为“学术头条”原创文章。转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“SciTouTiao”微信公众号。谢谢您的合作。

学术头条已建立微信交流群,此次演讲同时在线直播,后续还会有更多讲座直播,欢迎各位加学术君微信AMiner308,获取更多资源。记得备注:名字+单位/学校噢~

c3b70d2bff204abb6a2b697bf92b1f69.png
学术头条 发掘科技创新的原动力
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值