论文名称:大规模时序图数据的查询处理与挖掘技术综述
论文研究背景
论文的研究背景是时序图在作为一种带有时间维度的图结构,在图数据的查询处理与挖掘工作中扮演着越来越重要的角色。时序图的结构会随时间序列发生改变,即时序图的边由时间激活.而且由 于时序图上每条边都有记录时间的标签,所以时序图包含的信息量相较于静态图也更为大,这使得现有的数据查询处理方法不能很好地应用于时序图中。因此如何解决时序图上的数据查询处理与挖掘问题得到研究者们的关注。
论文内容
对现有的时序图上的查询处理与挖掘方法进行了综述,详细介绍了时序图的应用背景和基本定义,梳理了现有的时序图模型,并从图查询处理方法、图挖掘方法和时序图管理系统3个方面对时序图上现有的工作进行了详细的介绍和分析。最后对时序图上可能的研究方向进行了展望, 为相关研究提供参考。
1.时序图的数据定义与模型
1.1时序图定义
那时序图到底是什么了?研究者们将其中按照时间变化的动态网络建模成时序图,如将时间作为边上的权值,通过时间序列来表示顶点和边之间的连接和交互关系。
图1(a)表示静态图;图1(b)表示存在于1~10时间阈值内的时序图;图1(c)表示图1(b)中顶点和边对应的时间序列.只有在时刻6时A和C是通过B连通的。
给定一个时序图G=(V,E),其中V是G中的一组顶点,E是G中的一组边.对于一条边e∈E,用 四元组(u,v,t,λ)来表示,其中顶点u,v∈V,t是起始时间,λ是从u 到v遍历时间 ,则从u到v的终止时间为t+λ.边e的起始时间为t(e),遍历时间为 λ(e),即e在[t,t+λ]时是被激活的。顶点之间的距离是指2个顶点可达的最短时间。
1.2时序图模型
时序图一般有3种建模形式,第1种是为时序图的边构建带有时间信息的标签。第2种是在离散的时间上为时序图构建相应的快照。而第3种则是比较重要的一种,通过时间为顶点构建副本,将时序图完全地转换成静态图,在查询和挖掘过程种都是较重要的方式。
根据时间戳将图G水平分层,在每个水平层次包含V的副本,然后根据时间添加顶点与顶点副本之间的边,并规定边只能从上层顶点指向下层顶点.
2.时序图数据查询处理方法
2.1时序图上路径问题
时序图中路径通常被定义为连接顶点集的非递减连续时间的一组边的序列。经典的时序图上 的路径问题有最早到达路径(EAP)、最迟离开路径(LDP)和最短持续时间路径(SDP)。
那么如何去求解了,文章主要粗略的描述了一些算法。第一种是基于贪心算法的时序图上路径查询算法.这种算法以经典的Dijkstra算法为基础,通过枚举的方式求解EAP,LDP和SDP问题。但是查询思路比较简单,查询的效率也比较低。第二种是基于图转化的路径查询方法,这种图转换方法的基本思想是为时序图中的顶点构建副本,构成我们熟 悉的静态图,然后在静态图上进行路径查找,但会增加图的规模,不适用大规模的图数据上。第三种TTL算法为时序的边构建索引,来解决时序图上的路径问题,只需要从TTL表中找到可能的候选集,然后通过候选集找到符合要求的最短路径即可。
2.2时序图精确匹配问题
精确匹配问题是指给定数据图g和查询图q, 判断g中是否有与q同构的子图。而时序图的匹配主要分为:静态图匹配和时序图匹配。
静态图匹配:Ti-To方法,To-Ti方法和Ti&To方法
时序图匹配:TCGPM-V和 TCGPM-E方法
3.时序图挖掘方法
主要还是时序图的最小生成树问题,解决最小生成树问题是进行时序图上查询处理与挖掘问 题的基础。最小生成树又分为2种情况:MSTa(具有最小持续时间的生成树)和MSTw(具有最小权重的生成树)
本周小结
第一次接触这个领域,所有走了很多弯路,导致看论文效率很慢,好在及时和同门以及师兄交流,清楚该如何去学习这个领域。
本文为综述类文章,大体介绍了一下基本的概念和解决时序问题的基本思想,适合新手对这个领域有个大概的了解,所以没有过多的记录,接下来的重心应该是在路径问题,查询问题和匹配问题上,所有我会多看这方面的文章。