近几年的图组件挖掘(Graph Gattern Mining)软件优化算法状况
——最近在做图论相关加速器的研究,对近期的GPM软件优化算法做了调研,现在整理后顺便写成一篇小文章。
本次调研的目的是为了了解学术上单机GPM算法的现状,并探索将单机计算拓展到分布式计算的潜力。带着上述目的,我调查了近几年的论文,其中对我价值最大的文章是《In-Memory Subgraph Matching: An In-depth Study》1。这篇文章总结了截止到2020年6月为止的存内子图匹配算法。
问题描述
图组件挖掘(Graph Pattern Mining,后面统一简称GPM)指的是根据给定查询Q和数据图G,输出embedding函数集F。F表示所有能够从Q映射到G的embedding函数f的集合。典型的应用有三角形计数、k-clique计数、子图匹配和k-motif计数等等。
input: query Q, data graph G
output: embedding function set F
GPM问题建模思路是将GPM的过程视为搜索树,树的深度为Q中节点数量,树中level i 的节点具有i+1个匹配节点。