Exploratory Social Network Analysis with Pajek(第三版)13

十三、随机图模型

13.1 简介

社会网络分析的主要目的是检测和解释参与者之间的社会关系模式(第 1 章)。如果社会关系模式表达了社会参与者的选择或社会系统对参与者行为和态度的影响,那么它就是有意义的。到目前为止,我们一直隐含地假设观察到的网络表达了选择或社会约束,尽管我们已经指出,我们的行为解释应该通过将它们与其他指标进行比较来检查——例如,参见关于结构和社会声望的讨论第 9 章。
在这一章中,我们接受这样一种观点,即观察到的网络的至少一部分结构是随机的。因此,我们不应该假设在网络中发现的每个模式都是有意义的。统计推断应该告诉我们网络特征是否是随机的。我们不使用经典意义上的统计推断,假设观察到的网络是来自更大网络的随机样本(基于设计的推断)。对于一些基本的网络属性,基于随机样本的统计推断是可能的,但这不是我们这里追求的。相反,我们提出了统计网络模型,告诉我们如果根据随机过程(基于模型的推理)将边分配给顶点对,可以预期哪些网络特征。这种方法假设网络结构可能不同;例如,参与者 v 和 u 之间的边(图 128,网络 C)可能已经被 v 和 w 之间的边(图 128,网络 D)替换,但并非每个网络结构都必然具有相同的概率。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hGGdLrtf-1657346777905)(vx_images/在这里插入图片描述
)]
假设我们对友谊关系有一个传递性假设:人们更可能与朋友的朋友交朋友,而不是与其他人交朋友。如果人 v 是人 z 的朋友并且z与人 u 和 w 成为朋友,那么 v 更有可能是u和w的朋友,而不是一个连 z的朋友都不是的人。在社会理论中,我们通常不会提出确定性假设——例如,我们认为假设每个人都是他/她所有朋友的朋友的朋友是不现实的。如果我们愿意,所有通过友谊关系路径联系起来的人也将成为直接朋友,在一个更大的网络中,这将把一个人的朋友数量提高到难以置信的高数值。
我们更愿意考虑趋势或概率。如果我们在图 128 中遇到类似 C 的网络,可能 v 还没有遇到 w 或者 v 目前认为他/她有足够的朋友。观察到的网络在 v 和 u 之间包含一条边,但在 v 和 w 之间没有一条边,可能有许多不同的和特殊的原因。我们不关心这些临时原因,因为我们认为它们的影响是随机的或噪声。我们对边形成的系统影响感兴趣,例如传递性,它也可能产生不同的网络,例如,包含(也)在 v 和 w 之间或在 u 和 w 之间的边。
由于随机性,许多网络是可能并且可以被观察到。原则上但通常不是在实践中,我们可以列出所有可能的网络,只要我们制定条件,例如网络中的顶点数。图 128 显示了一些可能出现的具有四个顶点的简单无向网络,范围从空网络 (A) 到完全网络 (E)。请注意,仅包含在传递三元组中的网络也可能出现(例如,图 128 中的网络 B),但如果我们的传递假设为真,它们出现的概率应该较低。
除了所有可能网络的集合之外,我们还需要这些网络中的每一个发生的概率。与所有可能的网络相关的概率构成一个概率分布。我们将遇到的概率分布属于族,即彼此相似的概率分布集。在每个族中,一个概率分布在一个或多个特性上与另一个不同,这些特性称为参数,例如一条边出现在一对边中的平均概率。
在传递性示例中,我们可以假设每条边具有相同的基边发生概率,但是由一条边创建的每个传递三元组,例如传递三元组 v–z–u,都会通过固定值提高概率。在这种情况下,我们有一个包含两个参数的概率分布:一般基边概率和传递性加成概率。如果我们以数学方式定义可能网络的集合和伴随的概率分布,我们就有了网络的统计模型,它描述了我们假设形成网络的随机过程。

  • 统计网络模型是对可能网络集合和该集合上的概率分布的数学描述。

在本章中,我们介绍了整体网络结构的统计模型。这种方法主要对网络的全局特征感兴趣,它指定了生成具有典型结构特征的网络的随机过程,例如特定程度的聚类或特征平均路径距离。 13.3 节介绍了最流行的网络模型:经典的 Bernoulli 和条件统一模型、小世界模型、优先依附或幂律、无标度模型。我们将在 13.4 节中使用这些模型来构建网络属性的置信区间。
还有一种统计网络模型侧重于局部网络结构而不是整体网络结构。这些模型测试了关于关系形成的假设:行为人如何使他们的台词适应他们或他们的同伴参与的其他台词?这些模型,特别是横截面数据的指数随机图模型 (ERGM) 和面板数据的连续时间马尔可夫过程模型(例如,在 SIENA 软件中实现),提供了与假设检验相当的网络数据统计检验属性数据是社会科学实证研究的支柱。然而,他们的讨论值得一本书,而且他们的应用程序需要 Pajek 以外的其他软件。我们建议读者参考进一步阅读部分。

13.2 示例

互联网上博客等社交媒体的兴起为分析大型社会网络提供了新的机会。由于参与者之间的正式链接——例如,博客之间的超链接——从社交媒体中大量提取网络数据相对容易。因此,我们现在可以以原始社会计量学家无法想象的规模研究相互作用(见第 1 章)。
本章的示例是 2005 年 2 月讨论 2004 年美国大选的 1,490 个政治博客之间的超链接网络,由 L. A. Adamic 和 N. Glanc 编辑。网络包含带有自由派(民主党)或保守派(共和党)签名的大量政治博客。两个博客之间的弧边表示博客卷或 2005 年 2 月 8 日博客首页上的帖子中的引用。对于同一个博客的多个引用有一些多重边,而自我引用的环数量可以忽略不计。
在这里插入图片描述

图 129 显示了博客网络的整体结构,使用 Fruchterman-Reingold 算法进行了优化。白色顶点代表具有自由主义倾向的博客;深灰色的顶点代表保守的博客。大多数博客都链接到一个单独的组件中,显示出明显的党派结构(左派自由派,右派保守派),这在政治博客网络中更为常见。正如我们在第 6 章中所了解的,我们可以将自由派和保守派的划分视为虚拟变量,并将其用于计算同配性相关系数。正如预期的那样,我们得到了这个指数的高值(0.81),这符合我们对党派结构的视觉感知。xternal–Internal 指数为 –0.81,告诉我们同样的故事。请记住,在 E-I 指数高负值的情况下,意味着大多数边连接群组(Cluster)内的顶点。

13.3 整体网络结构建模

一些科学学科对随机网络的整体结构感兴趣,包括数学、物理学和社会科学。因此,研究随机网络的目的各不相同。数学家想要证明以特定方式生成的随机网络具有某些整体网络特征,例如一个大组件或其直径的特定值。相反,物理学家正在为大量观察到的网络寻找一般规律或常量。在本节中,我们从对以下两个研究问题感兴趣的社会科学家的角度展示模型: 1. 我的社会网络是否具有特定类型的随机网络的特征? 2. 如果是这样,在这种随机网络中,我的网络的其他特征是否比偶然预期的更多或更少?
第一个研究问题是社会科学家感兴趣的,因为如果观察到的网络类似于特定类型的随机网络,则生成随机网络的随机过程也可能适用于观察到的网络。随机过程通常可以解释为一种行为倾向,因此一个合适的随机网络模型可以说明网络中社会参与者的行为。但是请注意,行为解释并不总是有意或暗示在模型的原始使用中。 13.3.1 到 13.3.3 节介绍了最流行的随机网络模型。
第二个研究问题归结为统计推断:如果我可以假设随机网络模型适合我观察到的网络,则可以针对该模型测试网络特征的重要性。第 13.4 节使用蒙特卡罗模拟来产生一个抽样分布,该分布可用于统计检验和构建整体网络结构指标的置信区间。请注意,该技术也可用于回答第一个研究问题,即确定哪种随机网络模型最适合观察到的网络。
最后,关于术语的说明。在本章中,我们仅对网络中的边进行建模。附加信息,例如顶点和边属性,与随机网络模型无关,因此我们实际上处理的是图而不是网络。因此,它们被称为随机图模型。从现在开始,network 指的是一个观察到的网络,是从收集的数据构建的网络,而我们使用(随机)图来表示随机绘制的网络。

13.3.1 经典均匀模型Classic Uniform Models

最简单的随机图模型考虑所有具有相同顶点数和相同边数的图,不允许环和多重边,假设每个图都有相同的发生概率。该模型通常被称为 Erdös-Rényi 随机图模型,因为数学家 P. Erdös 和 A. Rényi 在这种类型的随机图上证明了几个重要的定理。
该模型最常见的实现是以固定的概率独立地为每对顶点分配一条边。独立性意味着一对顶点被一条边连接的概率与其他对中是否存在边无关。每对顶点都可以看作是一个随机二元变量,取值 1(存在边)或 0(不存在边)。随机图等价于一系列独立的随机二元变量,因为每个顶点对都被分配了一条具有相同概率且独立于所有其他对的边。这样的序列称为伯努利过程,因此该模型也称为伯努利随机图模型。
原始的 Erdös-Rényi 模型固定了确切的边数,因此该特征在随机图之间没有变化;它是一个条件,就像顶点的数量一样。相反,由于随机过程,伯努利随机图可能包含稍微更多或更少的边。边的数量和由此产生的网络密度是一个可以估计的参数,如果一个人有一个预期网络中特定密度的实质性假设。请注意,密度定义平均度数,如果没有环,没有多重边,它只是密度乘以顶点数减去一,所以平均度数也可以作为模型的参数或条件。
随机过程意味着什么行为假设?所有行为人由边连接的可能性相同——换句话说,他们可能连接相同数量的边,边在成对的行为人之间随机出现:行为人不关心他们与谁联系。从系统的角度来看,系统在其成员之间随机分配边。这些假设对于社会网络来说不是很合理,我们希望它们具有更多的结构,例如群组或中心化。该模型应被视为绝对基边,如果观察到的网络具有不同的结构特征,我们不应感到惊讶;如果模型确实适合观察到的网络,也许我们才应该感到惊讶。
伯努利随机图的整体结构有一些有趣的预期特征,即某些特征不是在每个生成的伯努利随机图中都出现,但如果我们对集合中的大量随机图进行平均,就会出现。如果生成的随机图更大,则更有可能出现这些特征。
伯努利图最令人惊讶的特征涉及弱组件相对于平均度数的大小。大于 1 的平均度很可能会生成包含一个大组件的图,而所有其他组件大约同样小。大组件的大小随着图的大小和平均度的增加而增长;如果平均度数为 1.5,它已经预计包含超过所有顶点中 50% 的顶点。在大图中,主组件也很大,因此有时称为巨型组件。相反,低于统一的平均度预计会创建仅包含小组件的随机图。另外,图的直径比较小,在顶点数(n)的对数除以平均度数(c)的对数的数量级[公式:ln(n)/ ln©]。
巨型组件和相对较小的直径经常在社会网络中遇到。伯努利随机图的预期度分布,即泊松分布(该模型也称为泊松随机图模型),在社会网络中不太常见,尤其是伯努利随机图的聚类远低于社会网络,特别是网络不小的情形。图中的聚类是用显示图传递性的聚类系数来衡量的:网络中所有闭合的两条路径的比例。这可以解释为具有共同邻居的两个顶点也直接链接的平均概率。在伯努利随机图中,传递三元组与连通三元组的预期比例是顶点的平均度数 © 除以顶点数 (n) 减去 1 [公式:c/(n − 1) ],它趋向于在较大的稀疏网络中为 0。

  • 网络的聚类系数或传递性是网络中所有闭合的两条路径所占的比例。

仅考虑边数,伯努利随机图模型忽略了观察到的网络可能必须满足的任何附加条件。数据收集过程,例如固定数量的选择,比如,说出你最好的两个朋友的名字,为生成的网络添加重要的限制——换句话说,规定了固定的出度。在这种情况下,应该强制随机图具有与观察的网络相同的度分布,因为顶点的度分布对图的结构很重要。用这种类型的条件扩展伯努利随机图模型的模型称为广义随机图模型或条件随机均匀分布模型。相关的概率分布是有条件的均匀分布:每个图形或边在结果图形具有例如预定义度分布的条件下具有相同(= 均匀)的发生概率。
从技术上讲,即使数据收集设计不构成约束,也可以以度数分布为条件。这意味着一些参与者更有可能参与边(度数)、启动弧(出度)或成为弧的目标(入度)。然后,该模型假设给定这些个人能力,行为人随机分配他们的边。请注意,这些能力是条件,而不是模型的参数,因此无法估计或测试;假设网络只能有这种出度分布。如果从观察到的网络中复制度分布,则隐含地假设各个能力的测量是无误差的,这是值得怀疑的。
在社会网络分析文献中,对有向图的概率分布进行了重要的工作,这些有向图以相互、不对称和空对数的数量为条件,即具有往复弧、单弧或无弧的二元组。这里的目标是测试和估计三元组之间的影响,例如传递性。该模型是第 13.1 节末尾提到的横截面网络数据的指数随机图模型的先驱。以度数分布为条件的简单无向伯努利图和简单有向伯努利图也有已知的特征,但它们更复杂,更难计算,这里不再讨论。
应用
简单无向伯努利图具有特征组件大小、直径、度分布和聚类。如果我们想确定一个伯努利随机图模型是否适合观察到的网络,我们必须首先检查它是否显示了这些特征。本章中的示例政治博客网络存储在 Pajek 项目文件 Political_blogs.paj 中。该文件包含原始的有向网络,其弧表示从一个博客到另一个博客的链接(“Politic blogosphere Feb. 2005”.net),但我们将使用没有环的对称版本(Blogosphere_undirected.net)。
组件大小可以通过命令 Network> Create Partition> Components> Weak 确定,如 3.4 节所述。此命令报告报告屏幕中最大组件的绝对和相对大小。博客网络有一个包含 1,222 个顶点(82%)的大型组件,而所有其他组件要么是孤立的,要么是成对的顶点。显然,这个网络包含一个巨型组件。博客网络的平均度数远高于 1(为 22.4;使用Network>Info>General 命令),伯努利随机图模型预测存在巨型组件。
网络的直径通过Network> Create New Network> SubNetwork with Paths> Info on Diameter命令在报告屏幕中报告。请注意,对于大型网络,该命令的执行可能需要一些时间。博客网络的直径为 8,而模型预测的直径约为
l n ( n ) l n ( c ) = l n ( 1490 ) l n ( 22.4 ) = 2.4 \frac{ln (n)}{ln(c)} = \frac{ln(1490)}{ln(22.4)} = 2.4 ln(c)ln(n)=ln(22.4)ln(1490)=2.4
(其中1490是顶点数,22.4是平均度数)。这里显然存在差异,但观察到的结果仅为预期结果的三倍左右(8/2.4),假设因子 10 定义了不同的量级,人们可以认为它们具有相同的数量级
网络的度数序列( degree sequence of the network) ——即所有顶点在网络中的序号排序后的度数列表——通过 Network> Create Partition> Degree> All 命令获得。度分布(degree distribution),即网络中每个度数的计数,可以使用 Partition> Info 命令进行查看。度频率(degree frequencies)也可以存储为一个新的partition ,将 Partition> Count, Min–Max Vector命令应用于度partition 。请注意,群组编号表示此命令创建的partition 中的度。度分布向右倾斜明显,因此它与伯努利随机图模型中预期的泊松分布不相似。我们将在 13.3.3 节更仔细地检查度数分布。
最后,让我们检查一下网络中的聚类。网络聚类系数可以从网络中顶点的聚类系数计算出来。一个顶点的局部聚类系数是它的邻居中直接相连的对的比例。请注意,局部聚类系数仅对网络中至少有两个邻居的顶点有意义。最小度数为 2 的所有顶点的局部聚类系数的加权平均值得出网络的聚类系数或传递性。如果用未加权平均值,则称为 Watts-Strogatz 聚类系数,但它不能产生闭合两条路径的精确比例。
在 Pajek 中,Network> Create Vector> Clustering Coefficients> CC1 命令为没有多重边的无向网络输出两个局部聚类系数向量,其中第一个(标记为 CC1 而不是 CC1 ') 包含所需的局部聚类系数。请注意,度数低于 2 的顶点的聚类系数设置为 999999998,这是 Pajek 的缺失值之一。此外,还创建了一个partition ,其中包含顶点邻居之间的边数,对于少于两个邻居的顶点,该partition 设置为 0。最后,报告屏幕显示了网络的 Watts-Strogatz 聚类系数和传递性或聚类系数。博客网络的聚类系数(传递性)为 0.226,比伯努利随机图模型预测的值 c ( n − 1 ) = 22.4 ( 1490 − 1 ) = 0.015 \frac{c}{(n-1)} = \frac{22.4}{(1490-1)} = 0.015 (n1)c=(14901)22.4=0.015 高一个数量级。如前所述,社会网络通常比伯努利随机图模型更聚集。
Pajek 中 根据几种经典的随机图模型制作随机图是可能的。固定边数的Erdös–Rényi 随机图可以使用 Network>Create Random Network>Total No. of Arc 命令绘制。对话框询问顶点数、图形中的弧数以及是否应排除多重边。注意该命令只能产生有向图;使随机图对称可能会减少边的数量,因为双向弧被一条边代替。因此该命令不适合生成无向随机图
更广泛使用的伯努利随机图可以在 Network> Create Random Network> Bernoulli/Poisson 子菜单中生成。可以创建无向和有向随机图以及二分和双模随机图,最后两个基本相同。该命令将询问顶点总数和平均度数。对于二分或双模网络,用户还必须提供第一种模式的顶点数。
关于度分布的条件可以用不同的方式设置。一种非常松散的方式是指定随机图中顶点的度数或出度的范围。命令Network> Create Random Network> Vertices Output Degree创建一个随机有向网络,出度或多或少均匀分布在指定范围内。随机图的精确度分布可以通过 Partition>Make Network>Random Network 子菜单和 Partitions>Make Random Network 命令来设置。第一组命令需要一个partition ,用于固定随机图的度数、入度或出度序列。例如,如果partition 中的第一个顶点的群组号为 5,则随机图中的第一个顶点的(入/出)度为 5。partition 还确定了随机图中的顶点数,因此用户无需指定此属性。第二个命令需要两个partition ,使用第一个partition 下拉菜单中的partition 作为入度序列,使用第二个下拉菜单中的一个作为出度序列。请注意,如果命令中使用的partition 不是从实际网络的度数序列派生的,则并不总是可以创建满足度数序列条件的网络。如果发生这种情况,Pajek 会报告。

13.3.2 小世界模型

伯努利随机图模型的一个明显缺点是它的低聚类和网络大小相关。本节介绍的模型旨在解决这个问题,可以生成规定范围内具有任何大小的聚类系数的随机图,在社会网络中通常发现的,范围大致介于 0.05 和 0.50 之间。
在这里插入图片描述

聚类问题的解决方案相对简单:只需将其最近的一些邻居链接起来。最初的小世界模型将所有顶点放在一个圆上,并将每个顶点连接到字面空间意义上的固定数量的邻居:平面距离最近的顶点。如果连接的邻居数超过 2,则会出现三元组,因为每个顶点都链接到其邻居及其邻居的邻居(参见图 130,左)。预期的聚类系数(网络传递性)仅由每个顶点在每一侧(r)链接到的邻居数量决定,并且很容易计算: ( 3 r − 3 ) ( 4 r − 2 ) \frac{(3r-3)}{(4r-2)} (4r2)(3r3)。如果任一侧的邻居数设置为 1,则聚类系数达到其最小值 0(假设聚类系数对于较低的 r 值没有意义),而对于大量邻居,该系数趋向于 0.75 。
在这里,隐含的行为假设是行为人倾向于与邻居的邻居有联系。用技术术语来说,他们更喜欢传递闭合。实质上,传递性可能是由于社会参与者在地理上彼此靠近(我认识住在我隔壁的人,他们认识他们的邻居,我也认识他们)或组织上(我认识人和他们在我的组织中认识的人),或者在另一种意义上,例如,因为行为人有共同的兴趣(有些人被联系在一起是因为他们分享
网络分析)。换句话说,传递性隐含着社会纽带的形成和保持很重要的语境。
然而,这种方法遇到了一个新问题:仅包含局部边的大图的平均路径距离远高于社会网络中遇到的平均路径距离,而小世界现象认为,即使在包含整个世界网络人口,人们间要相识最大经过六步(见第 1 章,第 1.3 节)。这个问题是通过用一个随机顶点替换一小部分局部边的一个端点来解决的(图 130,右),这足以获得具有低平均路径长度的图。这种替换称为重新布边,只需对局部边重新布边 1% 到 10% 即可获得平均路径距离低的小世界现象。
低比例的重新布边不会改变图形的密度和平均度。它几乎不改变其聚类,因此保留了社会网络的高聚类特征。当然,当您重新连接所有边时,群组会消失并趋向于 0,如伯努利随机图模型中的大图。因为重新布边是随机的,所以没有明确的行为解释;一些行为人意外地与当地社区以外的行为人联系在一起。
小世界随机图的统计模型固定了每个顶点所链接的环上的顶点数量和附近邻居的数量。这有效地固定了原始小世界模型中的边数。模型的概率部分只涉及边的重新布边,随机选择一条边,以及随机选择一条边重新连接到的顶点。每条边和每个顶点都具有相同的被选中概率,因此该过程可以解释为两个伯努利过程,其中一个参数设置一条边被重新布边的概率。请注意,选择一个顶点来接收重新布边的边的概率由网络的大小固定,因为所有顶点具有相等的概率。
在小世界随机图中,顶点之间的平均路径距离很短,但很难说有多短。已知平均路径距离会随着顶点数量的增加呈对数增加,但如果我们只有一个网络,这并不能告诉我们太多。此外,聚类系数相对较高,因此如果我们想量化社会网络的小世界特征,我们可以将平均路径长度除以聚类系数。该值越低,网络包含的平均路径长度越低,聚类越多。
最初的小世界模型以提出它的两位科学家的名字命名:Watts-Strogatz 模型。已经提出了替代的小世界模型。一种替代模型随机替换所选边的两个顶点:您取出一条边并用一条随机边替换它,如伯努利随机图。替换所有的边就会产生一个经典的伯努利随机图,所以伯努利随机图模型是这个小世界模型的一个特例。
另一种替代模型只是在局部边图中添加随机边,即不改变局部边。这归结为将局部边图与伯努利随机图相结合。该模型始终保留局部边固有的聚类,因此最小聚类通常高于其他模型,当然前提是局部图中的平均度数超过 2 并且随机边的概率高于零。最后,已经提出了从排列在栅格上的顶点开始的模型 - 非正式地:一个网格,其中顶点仅链接到它们最近的邻居 - 而不是圆形。
应用
政治博客网络的聚类系数为 0.226( Network> Create Vector> Clustering Coefficients> CC1 ),这很好地在小世界随机图的预期范围内。博客网络中的平均度数为 22.4,因此我们可以将其与一个小世界随机图进行比较,该图的顶点与 11 个最近邻 ® 相连,其平均度数大致相同。此随机图的聚类系数的期望值为 (3r - 3) / (4r - 2) = (33 - 3) / (44 - 2) = .71,在不重新布边的限制下。观察到的值要低很多,原因可能是小世界随机模型假设的所有顶点的顶点度并不或多或少相等;相反,它是高度倾斜的。
网络中的平均路径长度或顶点之间的平均距离由 Network>Create Vector>Distribution of Distances∗ 命令计算。注意:对于大型网络,此命令可能需要很长时间。它创建了一个包含距离分布的特殊向量:向量中的条目号表示距离,相关的向量值是该距离在网络中的频率。在报告屏幕中,该命令输出平均距离(博客网络为 2.74)、直径(示例网络中为 8)和不可达对的数量。平均路径长度与聚类系数的比值为 2.74/.226 = 12.12 。这么低,说明是小世界网络吗?要回答这个问题,我们应该将其与其他网络的比率进行比较
Network> Create Random Network 菜单中的 Small World 命令根据 Watts-Strogatz 小世界模型创建一个无向随机图。在对话框中,首先输入随机图中的顶点数,然后指定顶点在每一侧链接到的邻居数——例如,在此对话框中输入 3 会创建一个顶点链接到的环每边三个最近的邻居,所以平均顶点度数为 6。最后,输入 0 到 1 之间的概率,一条边将被重新布边,即随机接收一个新端点。重新布边/添加概率的用较低值-如0.01 到 0.10 - 足以在随机图中获得相对较短的路径。

13.3.3 优先连接模型Preferential Attachment Models

伯努利模型和小世界模型都存在一个问题:度数分布不像许多社会网络那样向右倾斜。社会网络通常包含很少的度非常高的顶点以及许多度低的顶点。优先连接模型通过简单地假设顶点更喜欢链接到具有更高度的顶点来解决这个问题。这是“富者愈富”或“成功孕育成功”等流行说法的网络变体。行为假设是行为人更喜欢受欢迎的同伴。在社会网络中,优先连接可能代表联系概率——如果很多人认识一个人,我更有可能被告知这个人——或者它可能捕捉到社会机制,其中他人的选择被解释为一个项目或行为人的品质,导出人们自己选择它,从而提高它的知名度。
优先连接模型是网络增长模型,通过一次添加顶点和一条或多条边来构建随机图。在 A. L. Barabási 和 R. Albert 为无向网络提出的著名模型中,每条新边都添加在新顶点和之前添加到网络中的随机选择的顶点之间。不允许多重边。对于每个新顶点,都会添加固定数量的边,因此初始网络必须至少包含此数量的顶点以避免多重边。
优先连接的统计模型通过重复次数和每次重复添加的新边数直接或间接固定随机图的顶点和边数,假设每次重复增加一个新顶点。概率部分涉及为新边选择顶点。在 Barabási-Albert 模型中,顶点被选为新边端点的概率与其度数成正比。这是表示优先连接的部分。
请注意,该模型假设在整个网络增长过程中,顶点和边都保留在网络中。如果我们想将此模型用于在历史上成长的社会网络,
如果这种情况则可能适合适用于观察到的网络。如果博客倾向于被保留以便始终可以被引用并且如果以前的引用被保留,那么政治博客网络示例就是这种情况。对于某些类型的网络,情况显然并非如此——例如,在特定时刻测量的友谊网络不太可能保留所有过去的友谊。放弃的友谊不再有助于一个人的受欢迎度。
高度倾斜的度分布是优先连接模型的主要特征。度分布的右尾遵循幂律:特定度 ( P k P_k Pk) 的相对频率(比例)或多或少等于度 (k) 的负幂 公式: P k = C k α P_k = Ck^α Pk=Ckα 其中 C 是归一化常数。 因此,该模型也称为幂律模型,但请注意幂律仅适用于分布的右尾,即更高的度数值。兴趣通常集中在指数 alpha 的(绝对)值上,对于 Barabási-Albert 模型中的非常大的图,该值预计为 3。
幂律分布是无标度(scale-free)的:在不同程度的大小上,频率分布具有相同的形状。更具体地说,如果我们将一个度数的比例或概率与该度数乘以一个固定因子的比例进行比较,无论我们比较相当低的度数(例如 10 和 20)还是更高的值,例如为 1,000 和 2,000。换句话说,规模或数量级无关紧要。然而,无标度特性只对度数分布在几个数量级的网络有意义,而这种网络只能在大型网络中出现。
Barabási-Albert 模型原来是 D. de Solla Price 为定向引文网络引入的旧模型的一个特例。在引文网络中,弧指向较早的出版物。优先连接关心顶点的入度,高被引文本更有可能收到新的引用,因此入度分布在大型引文网络中往往具有幂律尾。网络增长的模拟与 Barabási-Albert 模型中的一样,但如果接收到弧(被引用)的概率仅与顶点的入度成正比,则新顶点将永远不会收到弧,因为它们的初始入度为 0。因此,De Solla Price 增加了接收边的恒定基边概率,图中的每个顶点都分配了固定数量的虚拟传入弧。这个数字不必是整数,但必须大于 0。
在 De Solla Price 的模型中,将头部随机分配到新弧可以概念化为一个两步过程:随机选择一个或者考虑、或者不考虑顶点入度,第二步根据第一步选择结果随机选择一个顶点,对于所有顶点具有优先连接或具有恒定(均匀)概率。第二步与之前提到的 Barabási-Albert 模型和 Bernoulli 模型指定的步骤相同。在第一步中,选择顶点与其入度成正比的概率( P c P_c Pc)等于每一步平均新边数(c)与新边数(c)和虚拟边数(a)的比例: P c = c ( c + a ) P_c = \frac{c}{ (c + a)} Pc=(c+a)c 。同样,均匀顶点选择的概率 ( P a P_a Pa) 是虚拟边的比例: P a = a ( c + a ) P_a = \frac{a}{ (c + a)} Pa=(c+a)a。例如,如果每个新顶点添加的新边的平均数量 © 等于 4,并且常数 (a) 设置为 1 条虚拟边,则选择具有入度权重的头部的概率为 0.8,而选择 a 的概率为 0.2顶点忽略入度。换句话说,平均而言,每 5 次绘制边头中有 4 次考虑了顶点的入度。
图中的常数 (a) 和平均度数 © 以简单的方式定义了度分布的幂律尾部的预期指数 alpha: α = 2 + a c α = 2 + \frac{a}{c} α=2+ca。如果常数小于平均程度,则优先连接对随机过程的影响比均匀或“机会均等”选择更强。然后,商小于 1,因此预期的幂律指数在 2 和 3 之间。经验幂律网络的指数往往在这个范围内。再次注意,期望仅对大型网络有效。
或者,如果常数等于图形的平均度数,这意味着根据优先连接进行绘制的可能性与忽略度数的绘制一样,商正好为 1,而指数预计为 3。这是预测的值在 Barabási-Albert 模型中,这并非巧合。在无向图的 Barabási-Albert 模型中,每个新顶点都链接到恒定数量的新边,这些新边是 De Solla Price 模型中的虚拟边 (a)。同时,这些边的另一个端点是用顶点度加权的概率选择的,所以我们也有在每一步中添加的新边的数量作为优先连接选择的端点的数量(c)。因此,Barabási-Albert 模型等价于 De Solla Price 的模型,具有相等概率 (0.5) 的新边顶点的统一和优先连接选择。
优先连接随机图的主要特征是度数分布的形状,它遵循幂律,特别是对于更高的度数。如果以对数刻度绘制幂律分布,即以度数对数为横轴,度数对数为纵轴,则这些点沿一条直边下降,至少对于更高度值是这样。图 131(左图)显示了政治博客网络的度数频率分布的对数图。这些点似乎沿着一条直边下降,但它们在更大的度数上呈扇形散开,这意味着高度数的频率存在相当大的变化。这通常是最大度数是零星出现的,所以我们可能会偶然发现三个度数为 128 的顶点,而我们只找到一个度数为 129 的顶点。
在这里插入图片描述

为了消除尾部的这种噪声,首选对数-对数尺度上的累积图(图 131 [右])。这里,具有特定度数或更高的所有顶点的比例绘制在垂直轴上。现在我们更清楚地看到分布的右尾有一条直边,但我们也可以得出结论,这条边仅适用于从大约 50开始的度数范围。度数低于 50 时,绘图偏离直边边,也许在 1 到 10 的范围内形成一条新边。
如果我们想确定这个网络的幂律指数 alpha,我们应该将其限制在 50-300 区间内,这可能包括太少的数量级(300 只是 6 乘以 50),不能说是无标度的分配。我们不建议在此范围内拟合幂律,但如果我们这样做,我们会发现 alpha 值为 2.85,这与 Barabási-Albert 模型预测的值非常接近。
由于具有高(入)度的顶点,优先连接随机图在连接性和顶点之间的平均距离方面相当紧凑,它将顶点链接成一个组件并在大多数顶点对之间提供短路径。在这些方面,优先连接模型与经典模型和小世界模型相似。然而,与后者相比,聚类相对较低。
已经提出了几种替代的优先连接模型以及从这些模型生成随机图的不同程序,包括像在小世界模型中一样重新布边的组合优先连接模型。所有模型都倾向于具有幂律尾部的度分布,但其他特征可能在很大程度上取决于模型和设置。例如,某些模型会产生必然连接或以非常高的概率连接的随机图。对于这些模型,巨型组件的存在不应被视为有趣的结果。
应用
优先连接模型的随机图主要通过遵循负幂律的高度倾斜度分布来区分。度partition 表示网络的度序列,但 Pajek 没有绘制频率分布的工具,因此我们将展示如何将度序列导出到其他软件并在那里创建图。我们将使用免费软件 R,因此如果您尚未下载并安装 R 包,则必须先下载并安装 R 包,并确保 Pajek 可以找到 R(参见第 5.5 节的应用程序部分)。我们使用 Windows 版本的 R;在其他操作系统下用户界面可能不同。
在Pajek中,使用Network> Create Vector> Centrality> Degree> All 命令创建无向博客网络的度向量。使用 Tools> R> Send to R> Current Vector 命令将其导出到 R。如果 Pajek 已链接到 R,则 R 软件现在应该启动并加载包含度分布的向量。
除其他外,R 控制台窗口显示 R 的名称:即字母 v 后跟序列号,例如 v2。使用 R 的File>Open script 命令,打开脚本文件 Scale_free.R,该文件可从本书的网站 (http://mrvar.fdv.uni-lj.si/pajek/) 获得。在显示在单独窗口中的脚本文件中,确保在以# USER: ASSIGN THE RIGHT PAJEK VECTOR TO x 开头的行下,在x <- v2 语句中指定了正确的向量名称。另外,必须下载安装{igraph}包,脚本文件中有说明。最后,使用 R 中的 Edit>Run all 命令来执行脚本。请注意,此命令仅在选择脚本窗口时可用。
如果脚本成功运行,图 131 的两个对数-对数图应显示在 R 图形窗口中。如果选择了图形窗口,主菜单上会显示一个带有照相机图片的按钮。按下此按钮会将绘图复制到计算机内存中,因此可以将其粘贴到其他软件中。
R: {igraph} power.law.fit() R: Edit> Run line or selection
脚本中的最后一个命令 power.law.fit(x, xmin = 50) 估计幂律的最大似然值指数 alpha 仅考虑 50 及以上的频率。博客网络这部分度数分布的 Alpha 为 2.85。您可以通过更改脚本文件 xmin 参数后面的数字来调整最小度数。在脚本文件中并使用Edit> Run line or selection命令重新运行此命令。
Network> Create Random Network> Scale Free
优先连接随机图可以使用 Pajek 中的 Network> Create Random Network> Scale Free 命令生成。在执行这些命令之一时,用户必须指定几个设置,从顶点总数和最大边数开始。我们建议不限制最大边数。然后必须指定顶点的平均度数,即每个新顶点添加的边数。如果要将观察到的网络与随机图进行比较,请在此处使用网络的平均度数。该对话框还询问网络的起点、初始网络的大小以及网络中边的概率。我们建议将初始网络的大小设置为略高于平均度数。初始网络中边的概率不是很重要,但是如果要确保随机图是连通的,则应该输入一个较高的值。
对话框中的最后一个条目可能是最关键的,因为它们固定了添加新边的概率,具有均匀或度相关的概率。捕获的条目 Alpha(不要与幂律指数 alpha [小写] 混淆)请求与顶点入度成比例的边分配概率。如果网络是无向的,Pajek 假设相同的概率适用于加权出度,因为每条边都被视为双向弧,因此 Alpha 的值不能大于 0.5。对于有向网络,加权出度的概率(在 Pajek 中称为 Beta)必须在单独的条目中指定。根据加权入度和出度的概率,Pajek 计算出直边端点的均匀选择概率,即 1 减去 Alpha 和 Beta。
De Solla Price 的有向网络模型使用固定概率和与顶点入度成正比的概率。对于此模型,可以使用 Network> Create Random Network> Scale Free> Directed 命令生成随机图。 De Solla Price 的模型没有考虑顶点的出度,所以 Pajek 中的 Beta 应该设置为 0。Alpha 可以设置在 0 到 1 的范围内,但是 0 到 0.5 之间的设置最有可能生成随机图类似于无标度社会网络。 Alpha,即顶点入度被加权的概率 ( p c p_c pc),与平均度 © 和“虚拟”传入弧的数量 (a) 相关,方式如下: p c = c c + a ⇔ a = c ( 1 − p c ) p c p_c = \frac{c}{c+a} ⇔ a = \frac{c(1 − p_c)}{p_c} pc=c+aca=pcc(1pc) 。在平均度数 c = 22 和常数 a = 10 个虚拟传入弧的随机图中,Pajek 中所需的 Alpha 概率为 p c = c c + a = 22 22 + 10 = 0.6875 p_c = \frac{c}{c+a} = \frac{22}{22+10} = 0.6875 pc=c+ac=22+1022=0.6875。反之亦然,如果概率设置为 0.25,平均度数为 22,则虚拟传入弧的常数 (a) 为 a = c ( 1 − p c ) p c = 22 ( 1 − 0.25 ) 0.25 = 66 a = \frac{c(1 − p_c)}{p_c} = \frac{22(1-0.25)}{0.25} = 66 a=pcc(1pc)=0.2522(10.25)=66
请注意,如果每条新边都从新添加的顶点开始,则 Scale Free 命令仅生成 De Solla Price 和 Barabási–Albert 模型。这要求未选择选项 Adding>Free 。如果勾选这个选项,新弧的尾部和头部都将被随机选择,并且顶点可能在生成的随机图中保持隔离,这可能是也可能不是你想要的。如前所述,Barabási-Albert 模型是 De Solla Price 模型的无向网络的特殊版本,即其中 a = c。一个顶点应该以与其度数成正比的 0.5 概率绘制,并且从所有顶点均匀地绘制 0.5。在 Scale Free 命令中,对于无向网络,Alpha 必须设置为 0.25,因为 Beta 会自动设置为相同的值,因此它们的总和是所需的 0.5。
由 Scale Free 命令生成的随机图可能包含多重边。如果不需要这些——例如,因为聚类系数不能处理多重边——应该使用 Network> Create New Network> Transform> Remove> Multiple Lines 命令将其删除。
Network> Create Random Network> Extended Model命令也可用于创建优先连接随机图,尽管只是有向图。该模型将顶点和边的添加与重新布边相结合。所有添加和重新连接的概率都是依赖于度的,所以随机图总是有一个优先连接的方面。该命令与 Scale Free 命令非常相似,只是初始网络的大小不能小于每个新步骤中添加的行数。用户必须为每一步添加新边和重新布边现有边指定单独的概率。每一步添加新顶点的概率设置为1与前两个概率之和的差。注意添加新顶点的概率不能太低;否则网络可能会变得过于密集,并且永远无法达到所需的顶点数量。一般来说,随机优先连接图的生成可能不会成功,因为某些必需的属性无法获得而过早结束。有时,重复该命令会产生所需的结果。在其他情况下,可能必须增加平均度数设置、添加新顶点的概率或起始网络的大小,然后才能成功生成随机图。

13.4 蒙特卡罗模拟

上一节介绍了几种类型的整体网络结构模型。这些模型在随机图的结构特征方面有所不同,特别是连通性、度分布、聚类以及直径或平均路径距离。然而,我们注意到,对于从这些模型生成的图形,这些特征很难准确预测。一方面,这是因为它们有时与条件和参数以复杂的方式相关,并且只有无限大的网络才知道,所以我们只能预测特征的数量级;另一方面,这是因为参数值在从同一模型中绘制的不同随机图中自然会有所不同。我们通常只研究一个社会网络,它不一定很大,所以我们不应该期望观察到的网络与典型的随机图完全匹配。我们如何确定随机图模型适合我们的网络?
我们的方法是执行蒙特卡罗模拟,其过程如下。使用具有条件的模型生成大量随机图,以反映观察到的网络的特征。如果模型的随机过程适用于网络,则生成的图近似于从中绘制观察到的网络的样本空间。然后为每个随机图计算一个感兴趣的网络特征,例如,平均路径距离。该特征的相对频率分布近似于其采样分布。抽样分布的平均值是期望值的近似值,标准差近似于特征的标准误差。如果我们假设一个特定的概率分布(例如,正态分布),或者通过简单地查看分隔 90% 或 95% 观察值的界限,可以使用期望值和标准误差来构建置信区间。从尾部观察到的中间。
因此,蒙特卡罗模拟为观察到的网络的特征提供了一个基准,基本上告诉我们在从指定模型绘制的随机图中找到观察值或更极端值的可能性有多大。如果这个概率很大,我们可以得出结论,我们的网络类似于来自该模型的随机图——至少在这个属性方面——并且与模型相关的随机过程可能会告诉我们一些关于观察到的网络中社会关系形成的信息。相反,一个非常低的概率告诉我们,网络中可能还有另一个结构化原理在起作用,因为我们的网络不太可能由随机图模型生成。
让我们用政治博客网络来说明这一点。无向网络包含 1,490 个顶点;删除了环和多重边。网络密度为0.015,平均度数为22.4。我们必须尝试在我们将生成的随机图中重现这些特征。我们为伯努利模型、具有固定度的条件均匀随机图模型、小世界模型和优先连接模型生成了 1,000 个具有这些特征的随机图。条件均匀随机图模型中的度序列被约束为等于观测网络中的度序列。对于小世界模型,我们将每个顶点链接到每边的 11 个局部邻居,以获得 22 的平均度数。我们使用相对较高的重新布边概率 0.20,不幸的是,这是一个相当随机的选择,因为我们不能从博客链接的性质中推断出特定的重新布边概率。在优先连接模型中,我们将选择具有度偏好的顶点的概率设置为 0.5,这模仿了 Barabási-Albert 模型,但是新边的头部和尾部的选择是随机的,以允许分离,这也发生在博客网络。
在这里插入图片描述

总体而言,表 26 中的结果表明,在使用相同模型生成的随机图中,组件的数量和大小、直径、平均距离和聚类几乎没有变化。这应该不足为奇,因为已知模型在图结构的这些方面具有特征值。我们还注意到,对于不同的网络属性,博客网络类似于不同的随机图模型。总而言之,很难决定一种随机图模型。在直径方面,博客网络最类似于以出度为条件的一般随机图模型和优先连接模型。它的顶点之间的平均距离最接近伯努利随机图模型,尽管观察到的平均距离 (2.74) 超出了该模型的 95% 置信区间 (2.61; 2.63)。
正如我们所预料的那样,博客网络比所有模型都更加群组化,但它最接近小世界模型。然而,我们使用的小世界模型过于集中,因此必须重新布边比这里使用的(平均)20% 更多的边。我们可以将其表述为假设检验:我们的零假设表明重连概率为 0.20。假设这种重新布边的概率,聚类系数应该在 0.355 和 0.372 之间,对于任何符合该模型的网络,其置信度为 95%。博客网络的聚类显然要低得多,因此我们拒绝原假设。
最后,如果我们看一下网络的中介中心性,优先连接随机图模型产生的中心化分数最接近政治博客网络的中心化,但随机图中的中心化仍然太低。也许优先连接应该比 0.5 产生更大的影响,以获得所需的集中化程度。
蒙特卡罗模拟可用于为任何整体网络属性构建置信区间。作为说明,我们还为三元组类型的频率构建了置信区间(三元组普查)。以非常高的频率出现的小型网络配置称为网络主题。具有两个 (201) 或三个 (300) 边的三元组在博客网络中出现的频率比在此处使用的任何随机图模型中的预期要高得多。这表明了流行效应(一些博客链接到其他几个自己没有链接的博客;三元组 201)和群组效应(博客链接到他们的网络邻居的邻居;三元组 300)。请注意,从观察到的网络的显着高聚类系数中,聚类效果也很明显。博客之间的政治接近度——例如,共和党人与民主党人(图 128)可能在这里发挥作用。
应用
在前面的部分中,我们学习了如何为模型生成一个随机图。蒙特卡罗模拟的第一步归结为使用 Pajek 中的 Macro>Repeat Last Command 命令多次重复随机图生成。首先,创建一个随机图,然后选择Macro> Repeat Last Command,确保没有选中选项对话框窗口中的任何复选框,按重复上一个命令按钮,然后输入所需的随机图数减一(您已经有一个随机图)
蒙特卡洛模拟的第二步包括为所有生成的随机图计算所需的网络属性。在 Networks 下拉菜单中选择第一个随机图并计算整体网络属性,例如聚类系数。重复此命令的次数与第一步相同。每个网络通过Network> Create Vector> Clustering Cofficients> CC1命令计算的网络聚类系数将存储在向量中,每个聚类系数一个。请注意,这些向量的条目是指随机图,而不是顶点。 Vector> Info 命令在报告屏幕中打印 2.5%、5%、95% 和 97.5% 的分位数。这些分位数可以解释为网络特征的 95% 和 90% 置信区间的边界,即本例中的网络聚类系数。
网络特征可能产生超过 999,999,997 的值,这些值通常在 Pajek 中被视为缺失值。在政治博客网络中,空三元组(003)或仅包含一条弧边(012)的三元组计数可能超过此值,但不应视为缺失。为此,在Options> Read – Write> Ignore Missing Values in menu Vector and Vectors 。
重复创建具有固定度数序列的随机图需要特别注意。这种类型的随机图是从一个或两个partition 生成的,并且必须在所有重复中使用相同的partition 。要完成此操作,请在 Macro> Repeat Last Command 命令的 Options 对话框窗口中选中 Fix (First) Partition 和 Fix (Second) Partition 之前的框。如果未选中这些选项,Pajek 假定对于每个新的重复必须使用下一个partition 。
与其他几个命令一样,除了全局网络索引之外,聚类系数的计算还会为每个网络生成向量或partition 。每个生成的随机图的partition 和向量都需要相当多的存储空间,尤其是在图不小的情况下。但是,它们对于计算全局网络特征的置信区间并不是必需的。考虑到内存需求,明智的做法是删除所有不需要的partition 和向量。这可以再次使用Repeat Last Command 命令完成:处理第一个partition 或向量(File> Partition> Dispose File> Vector> Dispose)并对所有剩余的partition 或向量重复此命令。请注意,现在不应在 Options 对话框窗口中选中 Fix (First) Partition 和 Fix (Second) Partition 之前的框,因为每次迭代都应使用下拉菜单中的下一个partition 或向量。
用 Info> Memory (F11) 我们可以随时检查还有多少计算机内存可用于 Pajek 对象(网络、partition 、向量…)。我们建议每当命令生成一些更大的网络时检查可用内存。如果可用内存不足,请处置一些您在以后的操作中不需要的 Pajek 对象。例如,使用 File> Network> Dispose 命令处理网络。
报告屏幕包含每个生成的网络的一些边,这也减少了可用内存。在生成所有随机图表或所有网络统计数据后,清空报告屏幕(File> Empty Report )会很有帮助。随机图的生成需要几分钟,对于组件的partition 或向量的生成需要几分钟,而对于介数中心度则需要几小时。可以生成和分析的随机图的数量和大小显然存在限制。

13.5 小结

本章介绍了社会网络分析中随机性的概念。我们接受这样的观点,即观察到的网络可能不同,特别是如果我们的测量方法不同或历史略有不同,一些实际的边可能不存在,而一些缺失的边可能已经存在。要考虑网络可能有多么不同,我们必须制定一个统计网络模型,即对可能网络集合的数学描述和该集合的概率分布。我们通过固定一些网络特征来约束可能的网络集,特别是顶点的数量和网络密度或平均度数,但可以施加额外的约束,例如度数分布。我们假设网络一定具有这些特征。因为我们不考虑顶点属性或边结构之外的其他附加数据,所以我们更喜欢谈论(随机)图而不是随机网络。
概率分布告诉我们观察任何可能的图的可能性有多大。如果我们列出所有可能的图,我们可以确定每个图出现的概率。但是,仅针对非常小的图枚举所有可能的图实际上是可行的。因此,大多数统计网络模型指定单边存在的概率,而不是整个图的概率。在边的生成中使用随机性,边的随机生成会创建随机图。社会网络分析师可能会将这个随机过程解释为关于该对的行为、发送边的行为人或社交系统的假设。如果边概率取决于该对的上下文或参与者的网络位置,则假设参与者在建立社会关系时会考虑上下文或网络位置。
提出了三种类型的随机图模型,每种模型都有一个特征随机过程。第一种随机图模型假设每条边,因此从发送者的角度来看,每一个变化都是同样可能的。在具有均匀概率分布的随机图模型中,我们区分了伯努利模型,它仅约束图的顶点数和密度,以及一般或条件均匀随机图模型,它也约束其他网络属性,例如,度分布。如果平均度数超过 1,这些随机图很可能包含一个大组件,就像许多社会网络一样。
伯努利随机图的特征往往比社会网络少得多。第二种随机图模型,即小世界模型,解决了这个问题,产生了高聚类和小的顶点之间的平均距离,这两者都是社会网络的特征。该模型假设顶点链接到一组固定的地理或其他近邻,因此上下文被认为与边形成相关。此外,该模型假设一些顶点随机链接到不相邻的顶点,这确保了即使在大型网络中平均距离仍然很低。
第三种模型假设行为人倾向于链接到受欢迎的行为人,即已经参与许多链接的行为人。这通常称为优先连接。顶点与新边相交的概率取决于它的(入)度。这是一种网络增长模型,通过逐步添加新顶点和新边来构建网络。在大型优先连接随机图中,顶点度数倾向于根据幂律分布,尤其是在排除最低度数的情况下。这意味着度数分布非常偏斜——很少有顶点具有非常高的度数——或者是无标度的,这在社会网络中很常见。然而,就像伯努利随机图一样,优先连接随机图中的聚类通常低于社会网络中的聚类。
我们以探索性的方式使用随机图模型,将不同的随机图模型拟合到观察到的网络,可能会尝试一系列参数值。一旦我们找到了一个合适的随机图模型,我们就可以进行验证性网络分析,也就是说,测试关于不属于随机图模型网络属性的假设。例如,在伯努利随机图模型下是否存在比预期更多的传递三元组。蒙特卡洛模拟创建了网络属性的概率分布,从中可以解释置信区间。如果网络属性的观察值落在置信区间之外,则其值显着大或小。
正如我们的示例所示,无法保证找到一个随机图模型在所有关键特征(密度、连通性、紧凑性和聚类)上都适合观察到的网络。在不完美拟合的随机图模型中进行选择可能很困难,因此这可能不是在社会网络上进行假设检验的最佳方法。过去十年见证了用于社会网络数据假设检验的新统计技术的快速发展。最流行和最强大的技术是用于横截面数据的指数随机图模型(ERGM)和用于纵向数据(尤其是面板数据)的连续时间马尔可夫过程模型。与本章介绍的方法相比,这些模型并不关注整体网络结构。相反,他们的目标是预测每条边的出现或质量,将整体网络结构视为局部连接形成的结果。这些方法的真正验证特征及其复杂性超出了这本书关于解释性社会网络分析的范围。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值