文章简介:
- 文章标题:Efficient Graph Similarity Joins with Edit Distance Constraints
- ppt链接
- 文章链接
- 作者单位:新南威尔士大学,悉尼,澳大利亚
- 文章来源:ICDE 2012
正文
文章摘要:
在生物信息学,化学,社交网络,模式识别等许多应用中,图形被广泛用于建模复杂的数据语义。最近的趋势是容忍各种来源(例如错误的数据输入)产生的噪声并找到相似性匹配项。
在本文中,我们研究具有编辑距离约束的图相似性查询。
受q-gram思想解决字符串相似性问题的启发,我们的解决方案从图提取路径作为索引特征。 我们确定通用特征的下限以生成候选对象。 提出了一种有效的算法,通过利用匹配和不匹配特征以及程度信息来处理三种类型的图相似性查询,以改善对候选者的过滤和验证。
我们通过对真实和合成数据集进行广泛的实验,证明了所提出的算法明显优于现有方法。
两个定理:
1.如果GED(q,g)≤r,那么他们共同的基于路径的q-gram个数满足下界:
2.前缀过滤
如果两个图的q-grams集合为Q(g) Q(q)公共q-gram至少为
α
\alpha
α ,那么在各自的前缀q-gram |Q(g)-
α
\alpha
α +1|-prefix和 |Q(q)-
α
\alpha
α +1|中,至少有一个相同。
以前方法的不足
k-at树:
star:
过滤下界:
文章句法:
The algorithm takes as input a collection of graphs, and follows an index nested loop join style, maintaining an in-memory inverted index on-the-fly.
该算法将图形集合作为输入,并遵循索引嵌套循环联接样式,从而即时维护内存中的反向索引。
基于路径的q-gram和基于树的q_gram(又叫做k-AT)的不同之处在于,K-AT树是通过一个顶点的深度优先的层数而定的,基于路径的q-gram是根据图中的俩个点之间的路径定的。一个编辑距离的操作对于基于路径的q-gram的影响较小,因为只会影响其中部分的g-gram,但是对于K-AT树,会影响全部的g-gram。比如修改图中的碳元素C1的值,K-AT树的全部分支都会被影响,但是在基于路径的q-gram中,碳元素2和3不会被影响,因为它们在和碳元素1分开的q-gram中。这种优点会保持图的结构信息。
问题:
- 怎样通过定理1和2计算出每个图g的前缀长度 r r r * D p a t h _{path} path(g)+1?