Graph Similarity Search with Edit Distance Constraint in Large Graph Databases通过分支(Branch)构建编辑距离下界

文章简介:

  1. 文章标题:Graph Similarity Search with Edit Distance Constraint in Large Graph Databases
  2. 文章来源:CIKM 2013
  3. 作者单位:
    郑伟国 北京大学
    邹雷 北京大学
    德克萨斯州湘联大学-泛美分校,美国爱丁堡
    北京大学 王东
    北京大学 赵冬岩
  4. 文章链接

文章正文:

1. 分支距离的概念:

在这里插入图片描述

2.下界的提出:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.索引的提出:

在这里插入图片描述
在这里插入图片描述
作用:过滤掉不满足阈值的数据图,得出候选集。如果查询图和索引中的节点的分支距离不满足引理2,即查询图和 N i N_i Ni分支距离(where B(q) and B(g) are the branch structure multisets of q and g respectively)大于阈值,那么以 N i N_i Ni为节点的子树就会被修剪掉。

实验:

1.数据集:

真实数据集:

  AIDS是NCI / NIH2中发展治疗学计划的抗病毒筛选化合物数据集

合成数据集:

  在我们的实验中使用了合成图模型,即E rdos R enyi(表示为ER)。 在ER模型中,N个顶点由M个随机选择的边连接。

2.对比方法:

c-star[17],k-AT[15] and path-gram[19]

3.实验角度:

  针对所设计索引比较了:离线中索引构建的大小,在线中索引的过滤能力,过滤的时间

文章总结:

1.解决问题:

  编辑距离测量图的相似度已经成为一种流行的方法,很多学者通过定义编辑距离的下届,如基于n-gram(C-star/tree/path)、基于全局的下限(顶点和标签)过滤不满足下限的数据图。但是,这些下限的定义都存在了不足:too loose。例如,在在基于n-gram的下限中,使用k-邻居树作为俩个图的公共部分,但是当k大于2时,一个编辑操作将会影响非常多的k-邻居树。

2.使用方法:

  作者也遵循了下界过滤的思路,定义了branch distance的概念。通过俩个图的branches,定义俩个图之间的branch distance,从而定义了俩个图之间的最小的branch distance 。这也是GED的下届。为了不让查询图和数据图计算所有的分之距离,作者通过分之距离定义了分支距离树的索引。在索引中,叶节点表示每个数据图,中间节点是其孩子节点的并集。若查询图和中间节点的branch distance 大于给定的编辑阈值,则中间节点下的所有分支(就是数据图)将会被裁剪,这也大大提高了过滤的效率。随后在候选集中,运用其他验证算法验证候选集是是否是最终的结果。

3.文章不足:

  1. 未考虑到上限。虽然文章提出了新的编辑距离的下限,但是创新点仅仅是通过构建分支距离来定义。最大的问题,是没有计算上限。
  2. 计算的空间和时间复杂度高。在计算俩个图分支距离的最小值时候,需要进行二部图的最小求和运算。当俩个图的节点数很大,运算复杂度升高。即使用匈牙利(hungarian算法,时间复杂度也会高达 O ( m 3 ) O(m^3) O(m3)(m是俩个比较图中较大顶点个数)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值