Effective and Efficient Community Search over Large Heterogeneous Information Networks 翻译

摘要
最近,cs获得了极大的关注。给出一个顶点,cs要查找一个稠密的包含他的子图。现有的研究主要集中于同构图,但是并不能直接应用于异构图。在这篇文章里面,我将研究cs问题在大型异构图中,就是给出一个节点q,找到一个包含q的社区,这个社区里面的点都与q是同类型的并且具有亲密关系。
为了建立两个同种类型之间的关系,我们引进了一个知名的概念mate-path,就是不同节点的一组关系序列。然后,我们测量社区的稠密的通过拓展最小度数矩阵借用mate-path。我们还提供了高效的查询算法去查找社区运用这些稠密矩阵。我们在几个大的异构图上做了测试,结果显示所提出的方法对社区查询是有效的。此外,更快。
1.介绍
异构图具有不同的点和不同的关系。这些异构图是常见的在不同的邻域。
在这篇文章中,我们研究了在异构图中的cs。据我们所知,这是第一次有人研究。有一个异构图g,一个要查询的点q属于g,我们的目标是找到一个社区或一些顶点和q是同类型并且关系亲近。特别的,这个社区满足基于mate-path的稠密关系。mate-path这个概念已经被研究过了,就是关于两个两个顶点之间的关系序列。
先前的工作。现有研究关于社区检索可以大体分类为社区发现和社区查询。总的来说,社区发现为了发现在一个图中的所有社区。这些研究并不是研究为基础的,他们并不适合查询需求。此外,对于大型图来说,他们常常花费很长的时间去发现所有的社区,所有他们并不适合线上查询。为了解决这个问题,基于查询的cs方法最近在研究。但是,先前的cs方法主要集中在同构图,但是在异构图中,用这种方法并不合适。
csh问题。在这篇文章,我们关注于异构图的查询。概念上,一个社区就是许多紧密的点的集合。为了公式化表达这个csh问题,我们面临两个问题(1)怎么连接两个同种类的点?(2)怎么测量一个社区的紧密度?
对于第一个问题,这并不是容易回答的,因为相同种类的点也许并不会直接连接。为了链接这些点,我们引入了mate-path的概念,或者有一系列关系构成的序列。
对于第二个问题,现存的cs方法经常引入著名的矩阵,例如最小度,k-truss,k-core,来计算社区的紧密度。最小度矩阵是最常用的,它可以保证每个点都与社区有链接,也就是与他至少k个节点。在这篇文章中,我们拓展矩阵在异构图中,也就是,对于c社区中的每一个节点v,至少有k个其他节点通过matepath p的方式连接。为了解决查询,一个简单的方法是去构造一个同构图通过p的连接方式,然后用现有的参赛方法运行。
尽管这个矩阵上述很直接,但是可能导致一些点可能与社区连接并不紧密。举了一个例子。弱连接问题并不容易解决。此外,把异构图转换成同构图没有什么太大的意义,因为可能引起高度数和高聚类系数。
回想一下现有的cs研究需要每个节点至少有k个邻居,这代表着紧密联系即使我们去除一条边。受这个启发,我们提出用不同的mate-path去构建紧密度。特别的,我们引入两个新的矩阵通过无边重复和无点重复路径,使每个点v都与至少k个点相连。举了个例子。
没看懂。。
主要特征。csh查询具有许多很好的特点:(1)可以查询到不同种类的社区(2)查询可以更具自己的需求。(3)查询可以用网上的方式评价。
应用。这有几种csh查询的应用。(1)事件的策划,我们可以用特定的matepath查到特定的社区,然后可以组织特定的会议。(2)市场营销(3)推荐(4)生物数据分析。
挑战和贡献。最小度数矩阵还是由k-core定义的,就是最大的同构图,每个点度数至少为k。受这个模型的启发,我们提出三个核心模型,命名为经典,无边重复,无点重复,通过加入mate-path加入k-core模型。计算这些模型很困难。
对于经典模型,社区可以由推导出的同构图计算出。但是这个同构图比传统的更稠密。因此,这就使计算经典模型更困难,特别是当p长的时候。为了减缓这个问题,我们提出了一个算法,并不需要列举所有的路径。
对于无边重复和无点重复模型,首先就是并不能计算出来,因为并不能判断点或边是否重复,因此,我们不得不从异构图中计算,比计算经典模型更困难。其次,怎么计算最大的点数量由不同的边和点。计算这个的算法基于最大流,但是很耗时间。为了缓解这个问题,我们提出了接近线性的算法。还提出了加速方法。
另外,即使线上算法很快,但是频繁使用可能很低效。我们提出索引来提速。
做了几个实验,效果很好。
2.问题定义
2.1初步定义
hin定义,hin框架定义;种类的映射函数。
hin框架描述了所有的边种类。逆向同样存在。
matepath的详细定义以及一些性质。
p-neighbor是两个点以matepath连接,p-connected是在matepath上的两点。
2.2问题定义
我们目的是找到一个社区从hin中,包含所有与点p同种类的点。社区中的点应该连接紧密。为了连接目标点,我们引入语义matepath,开始和结束都是目标点类型。为了特征化紧密度,我们扩大k-core通过合并matepath。
α(v, S), 是与v连接在s中个个数,s是与v同类型点的一个集合。
定义basic(k-p)core给定一个异构图G和一个正整数k,是一个最大集合用p连接的,其中任意一个点的α(v,s)大于等于k。
前面提到的,这个basic core包含弱连接的点,因为可能分享公共边。为了,解决这个问题,我们提出了新的模型基于无重复路径。定义Ψ[v]是以v开始的p方式的路径函数集合,其中p1,p2上如果有一条边已经下一个点不同则是不同的,所有我们认为Ψ[v] 是不同的路径。 如果在p的不同位置出现是一样的边点,也是认为是不同的。
β(v,s),是最多集合s与v连接无边重复的数量。
e-d(k-p)core给定一个异构图G和一个正整数k,是一个最大集合用p连接,无边重复,其中任意一个点的β(v,s)大于等于k。
举个例子需要更多的例子,情况看看。
csh问题。
问题一:给出一个cshG,一个待查询的点q,一个语义的matepathp,一个正整数k,一个特定的模型k-core,返回相应模型包含q。
这个模型具有特定的性质。
2.3模型的性质没看。
3.在线查询算法
在这个部分,我们提出了有效的算法对csh问题。特别的,我们为每一个模型提出了基础算法和改进算法。基础算法很直接,但是并不高效。
总的算法的介绍。。。
3.1 basic (k,p)core算法。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值