文章简介:
- 文章标题:Graph Similarity Search with Edit Distance Constraint in Large Graph Databases
- 文章来源:CIKM 2013
- 作者单位:
郑伟国 北京大学
邹雷 北京大学
德克萨斯州湘联大学-泛美分校,美国爱丁堡
北京大学 王东
北京大学 赵冬岩 - 文章链接
文章正文:
1. 分支距离的概念:
2.下界的提出:
3.索引的提出:
作用:过滤掉不满足阈值的数据图,得出候选集。如果查询图和索引中的节点的分支距离不满足引理2,即查询图和
N
i
N_i
Ni分支距离(where B(q) and B(g) are the branch structure multisets of q and g respectively)大于阈值,那么以
N
i
N_i
Ni为节点的子树就会被修剪掉。
实验:
1.数据集:
真实数据集:
AIDS是NCI / NIH2中发展治疗学计划的抗病毒筛选化合物数据集
合成数据集:
在我们的实验中使用了合成图模型,即E rdos R enyi(表示为ER)。 在ER模型中,N个顶点由M个随机选择的边连接。
2.对比方法:
c-star[17],k-AT[15] and path-gram[19]
3.实验角度:
针对所设计索引比较了:离线中索引构建的大小,在线中索引的过滤能力,过滤的时间
文章总结:
1.解决问题:
编辑距离测量图的相似度已经成为一种流行的方法,很多学者通过定义编辑距离的下届,如基于n-gram(C-star/tree/path)、基于全局的下限(顶点和标签)过滤不满足下限的数据图。但是,这些下限的定义都存在了不足:too loose。例如,在在基于n-gram的下限中,使用k-邻居树作为俩个图的公共部分,但是当k大于2时,一个编辑操作将会影响非常多的k-邻居树。
2.使用方法:
作者也遵循了下界过滤的思路,定义了branch distance的概念。通过俩个图的branches,定义俩个图之间的branch distance,从而定义了俩个图之间的最小的branch distance 。这也是GED的下届。为了不让查询图和数据图计算所有的分之距离,作者通过分之距离定义了分支距离树的索引。在索引中,叶节点表示每个数据图,中间节点是其孩子节点的并集。若查询图和中间节点的branch distance 大于给定的编辑阈值,则中间节点下的所有分支(就是数据图)将会被裁剪,这也大大提高了过滤的效率。随后在候选集中,运用其他验证算法验证候选集是是否是最终的结果。
3.文章不足:
- 未考虑到上限。虽然文章提出了新的编辑距离的下限,但是创新点仅仅是通过构建分支距离来定义。最大的问题,是没有计算上限。
- 计算的空间和时间复杂度高。在计算俩个图分支距离的最小值时候,需要进行二部图的最小求和运算。当俩个图的节点数很大,运算复杂度升高。即使用匈牙利(hungarian算法,时间复杂度也会高达 O ( m 3 ) O(m^3) O(m3)(m是俩个比较图中较大顶点个数)。