【论文笔记】Graph Summarization Methods and Applications- A Survey

二、图摘要的类型
在这里插入图片描述

1.输入:静态或动态。
大多数摘要方法在静态网络上运行,利用图结构(链接)和节点/边缘属性(如果可用)。
在某些情况下,静态方法适用于处理视为一系列静态快照的动态网络。在其他情况下,图流的新方法被设计出来。
2.输入:均质或非均质
在图摘要和更一般的图挖掘中,最为深入研究的实例是具有一个实体和一个链接类型的齐次图。有些方法适用于异构图,通过不同方式处理不同类型的节点(如学生、教师)和它们之间的关系(如教师、朋友、同学)。这些方法往往更复杂,但也更具表现力。
3.核心技术
3.1基于分组或聚合
一些节点分组方法基于依赖于应用程序的优化函数递归地将节点聚合为“超级节点”,该函数可以基于结构和/或属性。另一些则使用现有的集群技术,将每个密集连接的集群映射到一个超级节点。边分组方法将边聚合到压缩器或虚拟节点中。
3.2 基于位压缩:
通过摘要将描述输入图所需的位数减到最少。有些方法是无损的,可以从摘要中完美地重建出原始图形。另一些则是有损的,影响了恢复精度以节省空间。
3.3 基于简化或稀疏化
这些方法通过删除不太“重要”的节点或边来简化输入图,从而得到稀疏图。
3.4基于影响:这些方法的目的是发现在大型图中影响传播的高级描述。这类技术将摘要问题描述为一个优化过程,在这个过程中,与信息影响相关的数量保持不变。
4.输出:摘要类型
摘要方法的输出可以是
(i)一个由超节点或原始节点集合以及它们之间的超边组成的超图;
(ii)稀疏图,其节点和/或边比原始网络少;
(iii)一系列(静态或临时)结构或影响传播,这些结构或影响传播是独立的而不是以单一摘要图的形式。
(a)平面的,节点被简单地分组为超级节点
(b)具有多个抽象级别的层次结构。
5.输出:非重叠或重叠节点
在最简单的形式中,摘要是不重叠的:每个原始节点只属于一个摘要元素(例如,超节点、子图)。重叠的摘要,其中一个节点可能属于多个元素,可以捕获复杂的内在数据关系,但也可能使解释和可视化复杂化
6.主要目标
图形摘要的主要目标包括查询效率和近似计算、压缩和数据大小缩减、静态或时间模式发现、可视化和交互式大规模可视化分析、影响分析和理解、实体解析和隐私保护
在这里插入图片描述

三、Differences from Prior Surveys
By contrast, we review a wide set of proposed methodologies for both static and dynamic graph summarization.
1.for plain static graphs (Section 2), for static graphs with additional side informa-
tion or labels (Section 3), and for (plain) graphs that evolve over time (Section 4).
2.highlight methodological properties that are useful to researchers and practitioners,
such as input/output data types and end goal (for example, compression vs. visualization),
and present them concisely in Table 1.
3.give connections between methods of graph summarization and related fields that,
while not directly supporting graph summarization, have potential in summarization
tasks. These fields include compression, sparsification, and clustering and community
detection.

一、STATIC GRAPH SUMMARIZATION: PLAIN NETWORKS
在这里插入图片描述

Grouping-based methods are among the most popular techniques for summarization
two main categories: (i) node-grouping and (ii) edge-grouping
In Section 2.2, we discuss methods that use bit-level compression as their
primary summarization technique and grouping as a complementary technique.
2.1基于分组的方法
2.1.1节点分组方法。有些方法使用现有的集群技术来查找集群,然后映射到超级节点。另一些则基于依赖于应用程序的优化函数,递归地将节点聚合为超级节点,通过超级边缘连接。
2.1.1.1基于节点聚类的方法。
虽然节点分组和聚类是相关的,因为它们导致节点的集合,但它们有不同的目标。在摘要的上下文中,执行节点分组以使结果图摘要具有特定的属性,例如查询特定属性或边缘权重的维护。另一方面,聚类或分割通常以最小化交叉聚类边或其变体为目标,而没有产生图摘要的最终目标。此外,与角色挖掘不同或结构等效,它寻求识别节点(如桥或辐条节点)的“功能”并找到角色成员关系,摘要方法寻求将网络中不仅具有结构相似性,而且彼此连接或接近的节点进行分组,从而可以用一个超节点来代替这些节点。
尽管聚类的目标不是图摘要,但聚类算法的输出可以很容易地转换为非特定应用的摘要。简而言之,输入图的一个小表示可以通过(i)将属于同一个簇/社区的所有节点映射到一个超级节点,以及(ii)将它们与权重等于交叉簇边之和或原始边权重之和的超边链接起来。尽管聚类输出可以看作是一个摘要图,但与定制摘要技术的一个根本区别是后者以类似的方式将链接到图的其余部分的节点分组,而聚类方法只是将密集连接的节点分组。其中最流行的划分方法是Graclus(Dhillon et al。2005),光谱划分(Alpert等人。1999年)和METIS(Karypis和Kumar 1999年)。尽管METIS是一种著名的发现“硬”节点成员关系的划分方法,但它通过迭代找到最大图匹配并合并匹配边上的节点来构造一系列的图“摘要”。然后将最粗化图上的对分结果向后投影到原始图形。通过这个过程,可以获得原始图的紧凑的层次表示,这类似于其他节点分组摘要方法
2.1.1.2基于节点聚合的方法。
基于层次聚类的节点分组的一个代表性算法是GraSS ,其目标是精确的查询处理。该方法支持对两个节点之间的邻接关系以及节点的度和特征向量中心度的查询。图摘要是通过贪婪地分组节点生成的,使得归一化重建误差为最小化,A是图的原始邻接矩阵,而∏A是实值近似邻接矩阵,其每个条目直观地表示了给定摘要的原始图中对应边存在的概率。结果摘要表示为一组顶点集,其中包含有关簇内和簇之间的边数的信息。这些集合用于生成一个概率近似邻接矩阵,在该矩阵上计算传入查询。例如,如果许多边交叉顶点集A和B,则A中的一个节点很可能连接到B中的一个节点。在另一个变体中,GraSS利用最小描述长度(MDL)自动在摘要中找到最佳的超级节点数。

在这里插入图片描述

coarseNet。
用一个闭合形式来计算λ1的变化,该方法是利用矩阵摄动理论推导的。节点对按λ1中变化的递增顺序进行合并,当达到用户指定的节点数时,合并过程停止。在每个步骤中,重新加权边缘,以保持λ1
原始图中所有边的权重相等。在步骤1中,宽度小的边导致λ1较小变化,边缘分数”较小的光边是很好的合并候选对象,而重边导致较大的变化,不适合收缩。在步骤2中,边缘宽度描述了获得coarseNet后的新的边缘权重。

在可视化领域,Dunne和Shneiderman(2013)引入motif简化来增强网络可视化。Motif简化用紧凑的glyph代替了常见的链接和公共子图,如星和团,以帮助可视化和简化实体和属性之间的复杂关系。这种方法使用精确的模式发现算法来识别模式和子图,用字形代替它们,以减少网络显示的混乱程度。我们在第5.2节中给出了一个例子。

除了摘要本身的最终目标之外,节点分组还可以应用于许多基于图形的任务。CoSum(Zhu等人。2016)包括对k部分异构图进行总结,以改善数据集之间的记录链接,也称为实体解析。CoSum将输入的k型图转换成另一个由超节点和超边组成的k型摘要图,利用不同类型之间的链接来提高实体解析的精度。该算法将顶点联合压缩为一个超节点,使得每个超节点由具有高度相似性的相同类型的节点组成,并根据组成节点之间的原始链接创建连接超节点的超边。与一般方法相比,结果摘要在实体解析方面具有更好的性能,特别是在缺少值和一对多或多对多关系的数据集中

2.1.2 边分组方法
与将节点分组为超节点的节点分组方法不同,边分组方法将边聚合到压缩器或虚拟节点中,以无损或有损的方式减少图中的边数。请注意,在本节中,“压缩”不是指位级优化,如下一节所述,而是指用节点替换一组边的过程。
Graph Dedensification(Maccioni and Abadi 2016)是一种边分组方法,它压缩高阶节点周围的邻域,加快查询处理速度,并在压缩后的图上实现直接操作。在假设高阶节点被可以合成和消除的冗余信息包围的假设下,Maccioni和Abadi(2016)引入了“压缩器节点”,它代表了高阶节点的公共连接。在查询处理过程中,为了提供全局保证并减少压缩器处理的范围,只有当每个节点最多有一个指向压缩节点的传出边,并且每个高阶节点都有来自压缩节点的传入边时,才会发生去失真。然后使用这些保证来创建查询处理算法,以便在压缩图上直接进行模式匹配查询。
在这里插入图片描述

在添加压缩机节点C之后,许多边被移除,该节点连接到高阶节点H。

2.2 基于位压缩的方法
位压缩是数据挖掘中常用的一种技术。在图摘要中,这些方法的目标是最小化描述输入图所需的位数,其中摘要由输入图及其未建模部分的模型组成。图摘要或模型明显小于原始图,并且经常显示各种结构模式,如二部子图,以增强对原始图结构的理解。如前一节所述,其中一些方法主要使用压缩和辅助分组技术。然而,一些其他方法的目的仅仅是压缩给定的图,而不必创建图摘要或找到可理解的图结构。

这里我们主要关注前一种方法,这些方法通常将摘要描述为一种模型选择任务。这些工作采用两部分最小描述长度(MDL)代码,其目标是最小化给定图G和模型类M的比特描述:
在这里插入图片描述

它表示模型的描述长度L(M),以及给定模型的图的描述长度(即相对于模型的错误或未建模部分)。为了完整起见,我们还提出了一些适合于摘要的图压缩方法,尽管最初不是为此目的而设计的。

基于这个由两部分组成的MDL表示法,Navlakha等人。(2008)介绍了一种有界误差的图总结方法。这种表示通过在摘要生成中聚合节点获得,由一个图摘要S和一组修正C组成(图4)。摘要是一个聚合图,其中每个节点对应于G中的一组节点,每条边表示两个集合中所有节点对之间的边。校正项指定了必须应用于摘要的边校正列表,以便精确地重新创建G。成本的表示R,是S和C两种方法的存储成本之和:,其中Es是超级边缘集合。基于MDL的图摘要是通过聚集节点组(因此也属于基于分组的摘要类别)找到的,只要它们降低了图的MDL代价。为此,一个简单但昂贵的贪婪启发式算法迭代地组合节点对,将最大程度地降低成本转化为超级节点。为了在图的平均度上将复杂度降低到三次,随机算法随机选取一个节点并将其与2跳邻域中的最佳节点合并。该公式还支持有损压缩和有界重建误差,以实现更高的空间节省。
在这里插入图片描述

由于S没有正确捕捉到边(1,5),因此添加了inC。同样,摘要“捕获”了原始图形中缺少的边(8,4),因此删除了它。

图压缩。图形摘要和压缩是相关的。图摘要方法利用压缩来寻找输入图的较小表示,同时发现结构模式。在这些情况下,尽管压缩是一种手段,但找到图的绝对最小表示并不是最终目标。在这个过程中被挖掘出来的模式可能会导致次优压缩。然而,在图形压缩工作中,目标是尽可能压缩输入图形,以最小化存储空间,而不考虑模式。

2.3基于简化的方法
基于简化的摘要方法通过删除不太重要的节点或边来简化原始图,从而得到稀疏图。与超图相反,这里的摘要图由原始节点和/或边的子集组成。除了基于简化的摘要方法之外,一些现有的图算法也有可能用于基于简化的摘要,如稀疏化、抽样和草图绘制。
基于节点简化的摘要技术的代表性工作是OntoVis(Shen等人。这是一个可视化的分析工具,它依赖于节点过滤来理解大型、异构的社交网络,其中节点和链接分别代表不同的概念和关系。OntoVis使用本体中有关节点和边的信息,如特定类型节点的度,从语义上对网络进行修剪。OntoVis支持语义抽象、结构抽象和重要性过滤。在语义抽象中,用户通过只包含从原始本体图中选择类型的节点,从原始图构造派生图。例如,在一个恐怖主义网络中,节点类型“恐怖组织”的选择会导致不同恐怖组织的语义抽象。结构抽象简化了图形,同时保留了整个网络的基本结构,例如,通过删除一级节点和重复路径。重要性过滤利用节点度等统计指标来评估节点类型之间的连通性和相关性。
针对与OntoVis相同类型的图,Li和Lin(2009)提出了一种四步无监督的基于边缘而非节点过滤的异构社会网络信息提取无监督算法(图6)。首先,在语义建模阶段,根据周围的网络子结构(k-hop邻域)自动选择和提取特征(或者关系的线性组合或基于路径的模式)。其次,统计依赖性是衡量每个自我节点的特征之间的依赖性。第三,在以自我为中心的信息提取步骤中,通过应用提取准则(如保留最频繁或最罕见的特征)去除无关信息。最后,在第四步中,一个以自我为中心的抽象图在剩余的特征上逐步构建,允许用户可视化较小的结果图。
在这里插入图片描述

图形采样、稀疏化和草图
“压缩”图的补充方法是从图中采样节点或边(Hübler et al。2008年;Batson等人。2013年)。但是请注意,采样更多地关注于获得稀疏子图,这些子图可用于近似原始图的属性以及更少关于识别模式的讨论,这些模式共同总结了输入图,以增强用户的理解。
图表草图(Ahn等人。2012年;自由2013年;G h a s h a m i e t a l。2016年),或通过应用线性预测获得的数据概要也具有相关性。图形草图可以看作是线性降维,草图的线性特性使其适用于具有节点和边添加和删除以及分布式设置的流图分析,如MapReduce(Dean和Ghemawat 2004)
2.4基于影响的方法
基于影响的方法寻求在大规模图中找到一个紧凑的、高层次的影响动力学描述,以理解影响在全局水平上的传播模式。通常,这些方法将图摘要描述为一个优化过程,在这个过程中,与信息影响相关的数量保持不变。这些摘要方法比较少见,主要应用于社会图,在社会图中会出现重要的影响相关问题。
2.5其他类型的图摘要
虽然不是我们的主要焦点,但我们简要介绍了一些方法来表示网络:(i)用一小组异常模式、图属性的分布图或精心选择的节点,或(ii)使用潜在表示。

3 STATIC GRAPH SUMMARIZATION: LABELED NETWORKS
许多真实的图形都有注释、标记或属性。例如,在社交网络中,代表用户的典型节点与年龄、性别和位置相关;交通图可能包含街道(边缘)的通行能力和每条街的最高速度的信息;Quora这样的论坛,可以解释为问答网络,有评论,赞成票和反对票。
在这里插入图片描述

事实上,总结标记图的主要挑战是两种不同类型的数据的有效组合:结构连接和属性。目前,大多数的工作都只关注节点属性,尽管其他类型的边信息对摘要有一定的兴趣。例如,对多模式数据(包括图、文本、图像和流数据)的联合摘要具有多种应用。然而,由于多模态分析的挑战,这些方法在文献中都有不足的探索。

3.1 Grouping-Based Methods
基于分组的方法根据结构属性和节点属性将节点聚合为由超级边连接的超级节点。分组节点通常在图中结构接近,并共享相似的属性值。
属性聚类或社区检测方法不执行摘要,但可以通过摘要方法来获得带属性的图的紧凑表示。摘要和聚类的一个根本区别是前者发现了具有与图的其余部分相似的连接模式的连贯节点集,而聚类结果是一致的、密集连接的节点组。

Web图是由超节点和超边组成的一组小有向图,它们指向对Web页面的一小部分内的互连进行编码的低级图。S-Node利用Web图的经验性观察到的属性,如域位置和页面相似性,其中一些可以被视为节点标签,另一些可以作为附加的文本信息,来引导页面分组为超节点。通过对低层有向图使用一种称为参考编码的压缩技术,S-Node实现了很高的空间效率,并自然地隔离了与特定查询相关的Web图部分。

基于分组的属性图摘要方法大多是在数据库社区中研究的,往往依赖于与groupby相关的操作。SNAP和k-SNAP是两种流行的数据库风格方法。SNAP依赖于(A,R)兼容性(attribute-and-relationship-compatibility),这保证了所有组中的节点在属性方面是相同的,并且对于所有类型的关系来说,它们也与同一组中的节点相邻。例如,在图8中,g1中的每个学生至少有一个G2的朋友和同学。SNAP首先创建共享相同属性的节点组,然后迭代地拆分这些组,直到分组与关系“兼容”,最终生成最大(A,R)兼容的分组。SNAP给出的汇总图节点对应于组,边是组关系。

4 DYNAMIC GRAPH SUMMARIZATION: PLAIN NETWORKS
分析大而复杂的数据本身就具有挑战性,因此增加时间维度使分析更具挑战性和耗时性。尽管如此,大多数网络确实会随着时间的推移而改变:例如,通过电话或社交网络与他人的通信模式;网络中服务器之间的连接;信息、新闻和谣言的流动;联网车辆之间的距离;智能家居环境中设备之间传输的信息。

在这里插入图片描述

3.2 Bit Compression-Based Methods
大多数基于压缩的摘要方法都利用MDL来指导节点的分组或在摘要中发现要替换为虚拟节点的频繁结构。这里,所采用的压缩和/或聚集技术同时考虑了图结构和节点/边缘属性。
第一个也是最著名的基于频繁子图的摘要方案dupre(Cook和Holder 1994)采用了两部分MDL表示(在第2.2节中描述)。除了网络结构之外,MDL编码还考虑了节点和边缘标签。利用贪心波束搜索迭代替换标号图中的最频繁子图,使标号图中的最频繁子图最小化MDL成本,带有元节点。多次的SBUDUE最终产生了一个层次结构描述图中的结构规则。所得到的表示法可用于识别异常结构(压缩效果不佳的实例)或最常见的子结构(压缩成本非常低的子结构)。自从SBUDUE的引入,人们提出了许多方法来缓解频繁模式挖掘的复杂性问题,或者在不同的环境下扩展其应用

3.3 Influence-Based Methods
基于标记的影响图摘要方法目前比较少见。这一类的代表性方法利用结构和节点属性的相似性来总结大规模网络中的影响或扩散过程。

4 DYNAMIC GRAPH SUMMARIZATION: PLAIN NETWORKS
分析大而复杂的数据本身就具有挑战性,因此增加时间维度使分析更具挑战性和耗时性。尽管如此,大多数网络确实会随着时间的推移而改变:例如,通过电话或社交网络与他人的通信模式;网络中服务器之间的连接;信息、新闻和谣言的流动;联网车辆之间的距离;智能家居环境中设备之间传输的信息。
时间演化网络的摘要技术尚未得到与静态网络相同程度的研究,这可能是因为时间维度带来了新的挑战。这些方法对时间粒度的选择非常敏感,时间粒度通常是任意选择的:根据应用程序的不同,可以将粒度设置为分钟、小时、天、周、月、年,或者在给定设置中有意义的其他单位。真实世界图形的连续变化和有时不规则的变化也使进化跟踪、定义在线“兴趣”度量和可视化变得复杂。动态图摘要问题可以定义为:
在这里插入图片描述

摘要是一个具有超节点和超边的时间演化超图,或者是比输入动态图更少节点/边的稀疏图序列
最简单的方法是将一个时间演化图看作一系列静态图快照,允许在每个快照上应用静态图摘要技术。然而,这种方法的有效性在很大程度上取决于用户指定的聚合操作和时间粒度(Soundarajan等人。2016年),全球还没有一个确定的方法来选择“正确的”时间单位。在时间粒度较小的情况下,数据量会显著增加。对于大时间粒度,有趣的动态可能会丢失。此外,现实世界中的过程可能是不可预测的或突发的。调整分析的时间单位可能是理解和捕捉重要动态的关键。
另一种方法是创建一个聚合图,根据交互的最近性和频率总结输入动态网络(图9)。这被称为“近似图”(Cortes等人。2001年;H i l l e t a l。2006年;Sharan和Neville 2008年)。具体地说,近似图中节点之间的交互作用随着时间的推移而聚集,并通过应用核平滑(例如,指数、逆线性、线性、均匀)加权,其中最近的边的权重高于旧边。权重低于指定阈值的边也可以被修剪以简化图近似

4.1 Grouping-Based Methods
基于分组的摘要方法递归地聚合节点和时间步长,以减小大规模动态网络的规模。
NetCondense(Adhikari等人。2017)是一种节点分组方法,它保持原始时变图的特定属性,如营销和影响动态中重要的扩散属性,由其最大特征值控制。在这个背景下,给定一个动态的网络ofT快照和一个流行病学模型,目标是找到一个由几个节点组(超级节点)和几个时间步组组成的简化网络序列,使其最大特征值的变化最小。
将其转化为一个条件良好的平坦网络的等价静态图问题,该网络的特征值易于计算,且具有与原始动态网络相似的扩散特性。这种观察允许用一种类似于粗网的算法来解决动态问题(Purohit et al。2014年)(第2节)。在这种情况下,在对动态网络进行扁平化之后,NetCondense会反复合并相邻节点对和相邻时间对,评估平坦网络的最大特征值的变化。更改按递增顺序排序,并合并最佳节点/时间对,直到达到用户指定的网络大小。NetCondense使用变换和近似来实现次二次运行时间和线性空间复杂性

4.2 Bit Compression-Based Methods
这类技术使用压缩作为从时态数据中提取有意义模式的一种手段。这一类别的唯一代表是TimeCrunch(Shah等人。它简洁地描述了一个大型动态图,其中包含一组重要的时间结构。扩展VoG(Koutra等人。2014b)(第2.2节),作者将时态图摘要形式化为一个信息论优化问题,其目标是识别局部静态结构的时间行为,这些结构共同最小化动态图的全局描述长度。引入一个描述各种时间行为(闪烁、周期性、一次性)的词汇表,以扩充静态图(星、团、二部核、链)的词汇量。图10展示了TimeCrunch识别的模式示例。

4.3 Influence-Based Methods

5.1 Summarization for Query Handling and Efficiency
图摘要可以大大提高不同图形特定查询的查询执行和效率。这样的查询可以寻找节点相关的信息,比如度、PageRank或参与的三角形,或者寻找在一个更大的图中识别或匹配子图。表2列出了几种用于评估图摘要方法的查询类型。
模式匹配查询在图形数据库中非常常见。例如,在涉及不同程度节点的星型查询中,图去隐化(Maccioni and Abadi 2016)证明了查询效率随着查询图大小的增加而提高,对于只涉及高阶节点的查询产生了最好的改进(最高10倍加速比)(第2节)。Fan等人。(2012)提出了一种无损模式匹配查询的属性图压缩方法和查询转换方案,压缩率高达92%,运行时减少达70%(第3节)。从系统的角度来看,乔比里奇等人。(2015)提出基于资源描述框架(RDF)图的面向查询的图摘要,这是W3C web资源的标准模型。许多模式匹配查询的方法也存在于数据库和图形分析中的图形摘要之外(Tong et al。2007;Tian和Patel 2008;Fan等人。2013年;Pienta等人。但这超出了我们调查的范围。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值