本文主要是对Xifeng Yan和Jiawei Han 发表于2002年的论文《gSpan:Graph-Based Substructure Pattern Mining》的解读
子图模式:基于图的数据挖掘,挖掘图数据库中的频繁子结构
Introduction
2000,Inokuchi结合Apriori算法和数学图论知识,提出了AGM算法
2001,Kuramochi对AGM进行了修改并引入了一些剪枝策率,提出FSG算法
2002,Jiawei Han等人提出了gSpan算法,有效的挖掘出图数据集中的频繁连通子图
注:
连通图:无向图G,图中任意两个节点都存在路径可达,则图G称为连通图
Applications of Graph Patterns
节点表示个体,边表示个体之间的亲密属性
频繁子图挖掘的核心是图的同构测试
The Apriori-like algorithms suffer two additional cost:
(1)Costly subgraph isomorphism test
(2)Costly candidate generation
gSpan
不产生候选集,gSpan能够在图数据库中建立一个新的字典排序并且为每一个图