Exploratory Social Network Analysis with Pajek（第三版）12

陳土

已于 2022-06-26 21:37:25 修改

阅读量1k

点赞数

分类专栏： pajek 社会网络分析文章标签：机器学习 python 人工智能

于 2022-06-26 21:37:01 首次发布

本文链接：https://blog.csdn.net/hartfo/article/details/125474656

版权

社会网络分析同时被 2 个专栏收录

25 篇文章 18 订阅

订阅专栏

pajek

18 篇文章 11 订阅

订阅专栏

第五部分建模

在最后一部分，我们将注意力从纯粹的网络结构探索性描述转移到建模上。介绍了两种类型的建模：块模型（第 12 章）和随机图模型（第 13 章）。
内聚性、中介和等级与社会角色相关：成为团体的成员、调解人或上级。这些角色中的每一个都与特定的关系模式相关联。块模型描述了整个网络中的社会角色和相关联的模式。块模型对前面章节中讨论的概念提供了不同的视角。
我们的网络结构可以是随机的吗？网络探索会产生网络结构属性的值，例如内聚性、中心性和排名。我们假设结构属性是由网络中代表的人做出的选择产生的——与谁联系，不与谁联系——并且结构属性对他们的态度和行为产生影响。网络结构的社会原因和后果赋予结构指数以意义。随机图模型向我们展示了我们对网络属性和影响来自社交而不是随机过程。

十二、Blockmodels

12.1 简介

在本书的前几部分中，我们介绍了用于分析社会网络的广泛技术。我们发现，一个结构概念通常可以通过多种方式来衡量（例如，中心性）。我们还没有遇到相反的情况，即一种技术能够检测不同类型结构（例如，内聚性和中心性）。在最后一章中，我们介绍了一种称为块建模的技术。
块建模是一种分析社会网络的灵活方法。一些网络概念对异常很敏感；例如，单个弧可以将有等级变成无等级群组（第 10 章）。经验数据很少是完美的，因此我们需要一个工具来检查允许异常或错误的社会网络的结构特征。密切相关的块建模和层次聚类就是这样的工具。
尽管块建模是一种能够检测内聚力、核心-外围结构和排序的技术，但它并不能取代前面章节中介绍的技术。目前，块建模仅对小型密集网络可行且有效，而其他技术在大型或稀疏网络上效果更好。此外，块建模基于不同的结构概念：对等和位置，这与社会角色和角色集的理论概念有关。块模型将顶点分组并确定这些群组（Cluster）之间的关系（例如，一个群组（Cluster）是中心，另一个是外围）。相比之下，前几章讨论的技术，例如中心性度量，分别计算每个顶点的结构位置。
块建模使用矩阵作为计算工具和结果的可视化。因此，我们先介绍矩阵作为表示社会网络的一种手段，然后再讨论等价的概念和块建模的技术。

12.2 矩阵和排列

在社会网络分析中，除了社会图之外，矩阵已经被使用了很长时间。矩阵是表示小型社会网络和计算其结构结果的有效工具。此外，矩阵提供了关于小型和密集网络结构的视觉线索，这就是我们在本节中使用它们的目的。
在这里插入图片描述

矩阵是包含行和列的双向表。行和列的交点称为矩阵的一个单元。图 108 显示了木材加工厂罢工员工的通信网络矩阵（参见第 7 章）。在这个矩阵中，每一行和每一列都代表网络的一个顶点，例如，第一（最高）行和第一（左）列特征为 Xavier。此行或列中的单元格显示 Xavier 的关系。在图 108 中，黑色单元格表示 Xavier 与另一名员工（或与他自己）通信，白色（空）单元格表示没有通信。请注意，矩阵通常包含数字，例如，1 表示存在关系，0 表示没有关系。在图 108 中，我们将数字替换为黑色或白色方块以突出显示图案
这种类型的矩阵称为邻接矩阵，因为我们可以从中看出哪些顶点是网络中的邻居（相邻）；例如，第一行的黑色单元格表示 Xavier（顶点 1）与 Wendle（顶点 11）和 Sam（顶点 15）进行通信。更准确地说，这些黑色单元格表明 Xavier 与 Wendle 和 Sam 之间存在联系。行条目包含边的发送者，列条目包含其接收者，因此第一行包含来自 Xavier 的边，第一列显示与 Xavier 的边（例如，来自 Wendle 和 Sam）。 Xavier 在他的行和列中具有相同的邻居并非巧合：网络是无向的，因此 Xavier 与 Wendle 的通信意味着 Wendle 与 Xavier 进行通信，等等。一条边相当于一条双向弧，因此一条边由邻接矩阵中的两条弧表示。一般来说，无向网络的邻接矩阵是关于从矩阵的左上角到右下角的对角边对称的，该对角边通常称为矩阵的对角边。
图 108 的邻接矩阵在对角线上不包含黑色单元格，因为这些单元格表示顶点与其自身的关系，并且不考虑员工与自己进行通信。邻接矩阵对角线上的单元格通常会受到特殊处理，因为它们具有环。
因为相同的顶点定义了邻接矩阵的行和列，所以邻接矩阵根据定义是正方形的。相比之下，双模网络（例如第 5 章的苏格兰董事网络）由矩形矩阵表示，但不一定是正方形。我们可以将公司放在行中，将董事放在列中，并且仍然包括该矩阵的单元格中的所有关系，因为公司只能与董事直接相关。这样的矩阵称为从属矩阵。在从属矩阵中，对角单元格不代表环。
矩阵中黑色单元格的模式提供了网络结构的视觉边索，因为我们可以看到哪些边存在（黑色）或不存在（白色）关系。然而，就像社会图一样，矩阵只有在仔细放置其顶点时才能揭示网络结构。例如，图 108 显示了看似随机的黑色单元格图案。它不会揭示网络的结构，因为员工是按任意顺序列出的。如果我们按他们的语言（英语或西班牙语）和年龄（小于或大于 30 岁）对它们进行排序，黑色单元格会显示出更加规则的模式（图 109）。现在，很容易看出这些界边主要出现在种族和年龄组中：各组之间不超过 3 条界边（Karl-Ozzie、Bob-Norm 和 Bob-Alejandro）。
在这里插入图片描述

顶点的重新排序或排序称为网络排列。本质上，排列是一个网络的每个顶点都有一个条目、并指定其新的顶点编号的列表。换句话说，排列是网络中顶点的重新编号。

网络的排列是对其顶点的重新编号。

如果我们为顶点分配新的数字，网络的结构不会改变。例如，比较图 110 中的网络 A 和 B。我们交换了顶点 2 和 4 的数量，但这并不影响网络的结构：网络 A 和 B 是同构的；也就是说，它们具有相同的结构。在矩阵中，我们交换了行和列中的顶点数，并对矩阵进行了重新排序，从而为相同的结构获得了不同的矩阵。
在这里插入图片描述

这些矩阵看起来不同，但它们描述了相同的结构。这意味着我们可以用许多不同的矩阵来表示同一个网络，就像我们可以为一个网络绘制许多不同的社会图一样。置换重新排列矩阵就像能量命令重绘社会图。因此，我们可以使用排列来找到揭示网络结构的矩阵。后续部分将展示如何执行此操作。
按种族和年龄组排列的罢工网络（图 109）显示了表征内聚子组的模式：黑色（非空）条目聚集在矩阵的对角边周围，在那里它们形成团块。这些团块确定了主要在其群体内保持联系的行为者的子群体。在我们的示例中，这些团块很好地反映了种族和年龄组。
应用
由于矩阵可以表示网络，因此可以以矩阵格式存储网络数据。对于小型网络，矩阵是我们迄今为止用作网络数据文件格式的弧和边的传统且有用的替代方案。 Pajek可以读取矩阵格式的数据；有关详细信息，请参阅附录 1（第 A1.2 和 A1.3 节），其中还讨论了矩阵格式的一些缺点。
在 Pajek 中，您可以通过在网络下拉菜单中双击其名称来显示网络矩阵。在出现的对话框中，如果要显示二值矩阵，请输入 1，即仅说明一条边是存在 (#) 还是不存在 (.) 的矩阵。图 111 显示了原始罢工网络的一部分（包含在 Pajek 项目文件strike.paj 中）显示为二值矩阵。请注意，列表由未格式化的原始文本组成，因此应该以固定的宽字体显示，例如 Courier。如果要在邻接矩阵中显示行值，请在对话框中键入 2 以获得值矩阵。在有值矩阵中，缺失的行由单元格中的 0 表示。
在这里插入图片描述

在 Pajek 中，不能以这种方式显示 100 个或更多顶点的网络，因为它们会产生巨大的矩阵。因此，选项“二值”和“边值”不适用于大型网络，她会自动报告为弧和边的列表。在这些列表中，每一行代表一个顶点，由它的编号和标签标识，后跟从它接收一条边的所有顶点的编号。这种类型的列表也是显示小型网络的第三个选项（“列表”）。
原始文本矩阵不适合高质量打印。为此，可以使用命令 File> Network> Export as Matrix to EPS> Original in PostScript （EPS是 Encapsulated PostScript的意思）格式保存矩阵。边值会自动转换为单元格的暗度。可以通过这种方式导出更大的网络，但大型矩阵通常对于可视化检测网络结构不是很有帮助。
正如我们所论证的，如果对矩阵进行重新排序，它通常会提供更多信息。在罢工网络的示例中，我们必须根据他们在种族和年龄组中的成员资格对顶点进行重新排序，这可以作为一个partition 提供给我们（strike_groups.clu包含在项目文件strike.paj中）。很容易从一个partition 派生一个排列，使得同一类中的顶点接收连续的数字：在partition 下拉菜单中选择partition 并执行位于partition 菜单中的 Make Permutation 命令。
鉴于该命令经常使用，您也可以通过按 F3 来运行它。 Pajek 创建一个新的排列，将最小的顶点数分配给partition 的第一类中的顶点，依此类推。
排列显示在 Pajek 主屏幕的排列下拉菜单中。您可以以通常的方式检查和编辑排列。当你编辑一个排列时，你会看到每个顶点的一行包含两个数字。第一个数字是新的顶点编号，第二个数字是原始的顶点编号。如果网络下拉菜单中的适当的网络处于活动状态，则还会显示顶点标签。
在这里插入图片描述

在各自的下拉菜单中选择网络、partition 和排列后，您可以使用命令File> Network>Export as Matrix to EPS> Using Permutation + Partition （或快捷键 F4)。一个对话框提示输入矩阵将要保存的文件的名称。在能够读取 PostScript 的查看器中（可下载GhostScrip查看该文件），结果应类似于图 112。查看File> Network> Export as Matrix to EPS> Options 子菜单中还提供了一些其他选项，例如，将负值绘制为菱形（用于签名图）、以灰度绘制、在顶部/右侧显示标签、使用partition 颜色显示标签。
在这里插入图片描述

种族和年龄组的排列也可以用来对网络本身进行重新排序。如果在其下拉菜单中选择了网络和排列，则Operations> Network + Permutation> Reorder Network命令会创建一个新的排列网络。通过双击下拉列表中（新生成的network)的名称，（在弹出的对话框中填入1）将重新排序的网络显示为二值矩阵，您将看到四名西班牙裔员工收到了从 1 到 4 的顶点编号（图 113）。请注意，根据种族和年龄的原始partition 与排列后的网络不兼容，但也可以重新排序：确保原始partition 和排列在其下拉菜单中处于活动状态并执行命令Operations> Partition + Permutation> Reorder Partition 。以同样的方式向量可以重新排序。

12.3 角色和位置：等价

在社会理论中，位置和角色是重要且相关的理论概念。一个位置，例如在大学担任导师的位置，通常与社会角色或角色集相关，即辅导学生和与同事协商。假设这个角色或角色集涉及与学生、同事和上级的特定关系和关系模式。社会学家、社会心理学家和其他社会科学家通过观察互动和采访人们关于他们的动机和他们所扮演角色的看法来研究社会角色和角色集的性质。
在社会网络分析中，我们专注于关系的模式。我们想识别具有相似关系模式的参与者，以发现他们是否与特定角色或角色集相关联，或者我们想检查具有相似角色集的人是否参与了特征关系模式。在社会网络分析中，位置等同于特定的关系模式。具有相似关系模式的参与者被认为是关系等价的，构成一个等价类，或在网络中占据等价位置。
在这里插入图片描述

图 114 提供了一个简单的示例来说明这些想法。一个系内的两名导师（i1 和 i2）指导三名学生（s1 到 s3）。他们联系学生，学生联系他们。教官互动，所以他们是一个有内聚性的子组，他们间的互动可能会导致他们以类似的方式行事。然而，这三个学生并不一定互动。尽管如此，他们对于导师来说处于相同的位置；因此，他们可能会对他们采取类似的行动。尽管它们不是内聚的子群，但它们在关系上是等价的。重要的是要注意，与其他位置成员的外部联系、和“位置跟内部的联系等价”的概念同样重要。
图 114 是一个小型核心-外围结构的示例，其中两名导师构成核心（一个位置），学生构成外围（另一个位置）。联系主要发生在核心内部以及核心与外围之间（外围之间联系不多），因此我们在排列矩阵中看到水平和垂直的关系带（是条形，不是矩形）。
到目前为止，我们已经大致描述了等价的概念。现在让我们正式定义一种等价，即结构等价：如果两个顶点与自身、彼此以及所有其他顶点具有相同的联系，则它们是结构等价的。这个定义意味着可以交换结构等价的顶点，而不会对网络的结构产生任何影响。

如果两个顶点与自身、彼此以及所有其他顶点具有相同的联系，则它们是结构等价的。

在我们的示例中，弧要么存在要么不存在，让我们比较核心中的两个顶点（导师 i1 和 i2）。显然，这两位导师与他们自己和彼此之间有着相同的联系：他们都没有与自己交流（没有环），并且他们之间的联系是对称的。此外，它们与另一个位置的顶点——学生——的联系也是相同的。如果导师 i1 连接到学生（例如，学生 s2），则另一个导师也连接到该学生。结果，除了对角边上的单元格之外，两位导师的行是相同的，因为他们不应联系自己。他们的列也是如此，它们代表了导师收到的边。我们可以在不改变网络结构的情况下交换两位导师。
一般来说，我们可以说结构等价的顶点在邻接矩阵中具有相同的行和列（对角边上的单元格除外）。考虑到这一点，很容易看出外围的三个学生（s1、s2和s3）不是完全结构等价的，因为顶点s2与顶点s1相关，但反过来不成立，所以他们没有彼此相同的联系。学生 s3 与 s1 无联系，因此他或她在结构上不等同于 s2。
在这里插入图片描述

结构等价是基于顶点之间关于它们在邻接矩阵中行和列的型（ profile）的相似性或不相似性。两个顶点的不相似性可以通过一个范围从 0（完全相似）到 1（完全不同）的指标来计算和表示。在图 114 中，导师 i1 的行和列与导师 i2 的行和列完全相似，因此它们的不相似性得分为 0（见表 23）。学生 s1、s2 和 s3 在这方面并不完全相似，因此他们的不相似性得分大于 0（范围从 0.0625 到 0.125），但他们彼此之间的相似度高于核心导师（不相似性为 0.1875或 0.25）。
知道所有顶点对之间的不相似性，我们如何将（几乎）结构等价的顶点在位置上聚集到一起？这可以通过一种众所周知的统计技术来实现，这种技术称为层次聚类。首先，该技术将最相似的顶点分组。在我们的示例中，导师 i1 和 i2 的关系完全相似，它们被合并到一个群组中。然后，层次聚类对下一对最相似的顶点或群组进行分组，并继续进行，直到所有顶点都已连接。
在这里插入图片描述

图 115 被称为树状图（ dendrogram），可视化了聚类过程。你必须从左到右阅读它。首先，导师 i1 和 i2 被加入，因为它们完全相似：他们的不相似性为 0。然后，学生 s1 和 s3 被加入（不相似性为 0.06，参见表 23）。第三步，将学生 s2 添加到 s1 和 s3 的群组中。最后，在群组合并的最后一步中，将该群组与核心顶点群组i1 和 i2）合并。
在树状图中，水平分支的长度代表了两个顶点或群组在连接时的相异程度，因此您可以看到最后一步合并了两个非常不同的群组。如果要将顶点划分为两个群组，则应将导师与学生分开。通常，在分支进行大跳跃的地方拆分群组的层次结构。通过这种方式，您可以检测结构等价或几乎结构等价的顶点群组（Cluster）。
应用
在这里插入图片描述

让我们将结构等价的概念应用于我们在第 2 章中介绍过的世界贸易网络。Pajek 项目文件 world_trade.paj 包含网络和标识 1980 年世界系统位置的partition 。图 116 展示包含1980 年已知世界系统位置的国家的矩阵（我们从网络中提取partition 的第 1 到第 4 类，Operations>Network + Partition> Extract> SubNetwork Induced by Union of Selected Clusters。边值表示金属五金制品的进口总值；它们由 PostScript 矩阵中单元格的颜色表示：较高的值由较暗的单元格表示。由于几个国家的商品贸易量非常大，因此进口总额的分布高度倾斜。我们将所有超过 10 亿美元的进口商品更改为 10 亿美元，以便为总价值较低的贸易关系获得稍暗的单元格。请注意，这些调整只是为了更好地显示矩阵。我们在本节的其余部分使用原始贸易网络。
网络是有向的，因此矩阵不是对称的，尽管进口值通常与出口值在同一范围内。该矩阵揭示了我们之前提到的核心-外围结构的一些特征：核心内部以及核心与半外围之间的许多强联系，但半外围与外围之间的联系很少且弱。结果，联系集中在与核心国家相关的水平和垂直条带上。
Cluster> Create Complete Cluster
现在，让我们计算原始贸易网络中国家的行和列的不相似性。首先，我们必须做一个预备步骤。不相似性方法计算复杂，因此应该用于小型网络或大型网络的一小部分。因此，该方法要求我们指出它应该使用哪些顶点。我们必须在称为群组的特殊数据对象中识别它们。在我们的示例中，我们想要包括所有国家，因此我们使用 Cluster> Create Complete Cluster 命令创建一个包含所有顶点的群组。网络中的顶点总数默认显示在该命令发出的对话框中，因此您只需按 OK 按钮即可。由该命令创建的群组在群组下拉菜单中列出，并且可以按照通常的方式进行编辑。
Partition> Make Cluster> Vertices from selected Clusters
但是，如果要将分析限制在网络的一部分，请确定要在partition 中计算不相似性的顶点，并将此partition 中所需的一个或多个类转换为使用 Partition> Make Cluster> Vertices from selected Clusters 命令进行群组。对话框将提示您输入必须选择的partition 的类号或类号范围。例如，您可以通过将世界系统位置partition 的第 1 类转换为群组来限制对 1980 年核心国家的不相似性计算。在这种情况下，我们接下来讨论的不相似性命令仅计算核心国家的不相似性，但它考虑了核心国家与非核心国家的联系。
因为我们需要一个网络和一个群组来计算 Pajek 中的不相似性，所以 Dissimilarity* 命令位于操作菜单中。不相似性是从网络结构中计算出来的：如果顶点有许多共同的邻居，则它们是相似的。另一种可能性是根据向量值（基于向量）计算不相似性，这里将不讨论。有几个不同的指数，但我们只展示和使用指数 d1。查阅数字分类手册以了解有关其他指数的更多信息（参见本章末尾的“进一步阅读”）。两个顶点的不相似性d1 只是它们不共享的邻居的数量（归一化为 0-1 区间）。该索引可能仅限于输入邻居（输入；比较列）或输出邻居（输出；比较行），或者它可以同时考虑输入和输出邻居（ All ）。除非您有充分的理由专注于输入或输出邻居，否则请选择 All 命令。
d1 不相似性指数检查顶点的邻居们，因此它不考虑边的值。如果您希望不相似性分数反映边值，您应该选择欧几里得或曼哈顿距离指数（d5 和 d6）。在世界贸易的示例中，使用欧几里得或曼哈顿距离将要求结构等价国家不仅要向同一个国家出口和从同一个国家进口，而且除此之外，还需要具有可比强度的贸易联系。然而，这可能是一个过于苛刻的标准，因为各国的进口价值差异很大。因此，我们在这里推荐 d1 指数。
现在执行Operations> Network + Cluster> Dissimilarity∗ > Network based> d1> All 命令。如果先前已选择选项Operations> Network + Cluster> Dissimilarity∗ > Network based> Options> Report Matrix ，则 Pajek 计算不相似性并在报告屏幕中报告它们（注意：不要选择此子菜单中的其他选项）。该命令将不同之处存储为新网络中的行值，您可以以通常的方式列出或打印（参见第 12.2 节）。请注意，此网络是有向的且非常密集，因为每对不完全相似的顶点（因此：不相似性大于 0）由一对弧连接。作为一项规则，不要对这个网络尝试绘制和应用弹力布局。
在执行一个 dissimilarities 命令时，Pajek 会自动尝试将层次聚类应用于新创建的不相似性网络。它提示用户指定存储聚类树状图的文件的名称。树状图已保存但未显示，因为它采用EPS格式。您可以使用 PostScript 解释器（参见附录 2）查看它（图 117），将其插入 Word 或其他文本编辑器，或在 PostScript 打印机上打印。此外，层次聚类的结果被保存为排列和层次。
在这里插入图片描述

世界贸易网络的树状图，如图 117 所示，显示了贸易网络中两个非常不同的群组：10个西欧国家、美国、日本和中国与其余67个国家明显分开，其中大部分是较贫穷的国家。
这也可以从由 Dissimilarity* 命令创建的层次结构中推断出来，该命令标记为“erarchical Clustering [Ward]”。请注意，“Ward”是指 Pajek 中默认的层次聚类方法。其他方法可从 Network>Create Hierarchy>Clustering* 对话屏幕访问。在编辑屏幕中打开层次结构（单击层次结构下拉菜单左侧带有放大镜的按钮），然后通过单击展开根以及下一层群组以获得在图 118 中所描绘的列表。根将两个主要群组联合起来。方括号中的数字告诉您连接的群组或顶点的不同之处；较大的值意味着它们更不相似。十三个国家的群组在内部比较大的群组（0.84）更相似（0.64），这对应于树状图中较大组内的第一个拆分比较小组内的拆分更准确的事实（图 117）。
[Hierarchy Edit screen] Edit> Show Subtree
我们如何知道哪些国家属于某个特定群组？我们可以通过以下方式在 Hierarchy Edit 屏幕中找到国家的名称，前提是网络下拉菜单中的适当网络处于活动状态。首先，确保在层次结构的编辑屏幕的编辑菜单中选择了Show Subtree选项。否则，Pajek 仅显示在当前层次聚类步骤中添加到聚类中的顶点的名称。其次，通过左键单击（选择它）并随后右键单击它，在编辑屏幕中选择一个群组。在一个新窗口中，列出了该群组及其所有子群组中的顶点的数量和标签。例如，如果将其应用于标记为“100071”的群组，您将看到它包含奥地利、瑞士、比利时/卢森堡、荷兰、瑞典和西班牙。
层次聚类逐渐将顶点合并为群组，将小群组合并为较大的群组。哪些群组代表结构等价类，哪些不代表？在结构等价的严格方法下，不相似性为零的顶点是结构等价的。然而，在真实的社会网络中，很少发现这样的顶点，所以我们考虑不是很相似的顶点群组来表示结构等价类。
哪些顶点不是很不同？这个问题没有一般的答案。由你决定你想要的等价类的数量，也就是说，你想要切割树状图的次数，但你应该总是从“右到左”切割它：首先分离最不相似的群组。在世界贸易示例中，您应该首先将 13 个富裕国家与其他国家分开。然后，您可以在新的群组中进行细分，因为这些国家 (0.84) 比 13 个富裕国家 (0.64) 更加不同，依此类推，直到您达到所需的等价类数量或进一步细分似乎是任意或无意义。
让我们将贸易网络划分为四个结构等价类，因为我们划分为四个世界系统位置（核心、强半外围、弱半外围和外围）。我们拆分了 67 个国家的群组（相异度为 0.84）及其最大的子群组（相异度为 0.78）。现在，我们可以从标识这四个群组的层次结构中创建一个partition 。这分两步完成。
首先，我们必须关闭层次结构中不想进一步拆分的群组。通过在 Hierarchy Edit 屏幕中左键单击群组来选择群组，然后从 Hierarchy Edit 屏幕的 Edit 菜单中选择 Change Type 或按 Ctrl-t。现在，消息（关闭）出现在所选群组的后面。对必须关闭的其他群组重复此操作，但不要将其应用于任何必须细分的群组。
其次，从主屏幕的 Hierarchy 菜单中执行 Make Partition 命令。此命令创建一个partition ，其中每个关闭的群组都由同一个类表示。当您在原始世界贸易网络中绘制此partition 时，您会注意到等价类代表贸易位置和地理位置的混合；核心国家是西欧国家、美国、日本和中国，从三个区域位置划分：美洲、亚洲与大洋洲、欧洲（包括前殖民地）与中东。
File> Network> Export as Matrix to EPS> Using Permutation + Partition
到目前为止，我们已经讨论了由 Dissimilarities 命令创建的树状图和层次结构，但没有讨论排列。该排列被标记为“分层聚类排列 [Ward]”，它标识了树状图中表示的顶点的顺序。当您要打印由层次聚类结果重新排序的矩阵时，可以使用此排列。它与从层次结构中创建的Partition匹配，因此您可以获得一个带有蓝色线的矩阵，指示您在群组层次结构中所做的拆分（请参阅第 12.2 节）。

12.4 块建模

在前面的部分中，我们用（蓝色）线绘制了邻接矩阵来划分顶点类别，例如，罢工员工中的种族/年龄组（第 12.2 节）、小型网络中的导师与学生以及世界系统位置贸易网络中的国家位置（第 12.3 节）。至此，我们应该注意到，这些线将邻接矩阵划分为矩形，这些矩形称为块。

一个块包含属于一个或两个类的横截面的邻接矩阵的单元。

我们可以通过分析邻接矩阵的块来描述网络的结构（在位置内和位置之间）。对角线上的块表示一个位置内的关系。在理想的核心-外围结构中（例如，图 119），顶点在核心内连接（顶点 i1 和 i2），而外围顶点（s1 到 s3）间不直接链接。对角线以外的块代表类之间的关系，即核心与外围之间的关系。学生的身份来自他们对导师的依赖，而不是来自他们的内在联系（实际上，他们就是基于缺乏内在联系而被识别的）

12.4.1 块模型

包含结构等价类的网络的邻接矩阵有一个非常显着的特征，即如果我们忽略对角线上的单元，它们的块要么是完全的要么是空的（空块）。这源于结构等价标准，即等价顶点具有相同的行和列。
为了理解这一点，假设图 119 的学生之间存在一条联系，例如从 s2 到 s1。结构等价顶点必须彼此具有相同的联系，因此 s1 也必须连接到 s2。如果所有学生都是结构等价的，则 s3 必须与 s1 和 s2 具有相同的关系，因此它必须与 s1 和 s2 链接。现在，除了对角线之外，该块已完成。这也适用于位置之间的联系。
现在我们知道具有结构等价类的网络的邻接矩阵只包含完全块和空块，我们可以通过将每一类顶点收缩到一个新顶点（矩阵中的元素）来简化邻接矩阵并标记块新矩阵中每个单元格的类型，在结构等价的情况下，它要么是完全的（com）要么是空的（- 或 null）。这个压缩矩阵称为镜像矩阵（ image matrix），它包含原始邻接矩阵中存在的所有信息。图 120 显示了一个简单的核心-外围结构的镜像矩阵和等价类（位置）内部和之间的关系的图形表示，其中弧表示完全的块，而弧的缺失表示空块。
在这里插入图片描述

块模型将网络的顶点分配给类，并指定类内和类之间允许的关系类型。

镜像矩阵是我们定义块模型所需的最后一个要素。网络的块模型由partition 和镜像矩阵组成。partition 将顶点分配给等价类，并将网络的邻接矩阵划分为块。镜像矩阵指定了类内和类之间的关系类型，因为它说明了允许哪些类型的块以及它们可能出现的位置。例如，图 119 的核心-外围结构的块模型由一个partition 组成，该partition 把导师 i1 和 i2分配到一个类，把学生（s1、s2 和 s3）到另一个类，并指定块之间关系的镜像矩阵，如图 120 所示。
块模型描述了网络的整体结构以及该结构中每个顶点的位置。在导师和学生的示例中，镜像矩阵显示了适用于网络的等价类。该网络包含结构等价类，因为只有完全块和空块。此外，镜像矩阵揭示了网络的核心-外围结构，因为完全块排列在一个水平带和一个垂直带内。第 1 类代表核心，它是内部链接的，第 2 类代表外围。最后，partition 告诉我们哪些行为人是核心的一部分（两名导师，他们构成类 1），哪些行为人属于外围（类 2 的三个学生）。块模型是表征网络整体结构和各个顶点位置的有效设备。

12.4.2 块建模

到目前为止，我们假设我们知道网络的块模型，即顶点划分为类和指定允许的块类型的镜像矩阵。在一个研究项目中，我们自然而然地反过来工作：我们有一个网络，我们想找到捕捉网络结构的块模型。
获得此块模型的技术称为块建模。一般来说，块建模包括三个步骤。第一步，我们指定网络中类的数量，例如，如果我们假设一个简单的核心-外围结构，则为两个类或位置。在第二步中，我们选择允许出现的块的类型，以及可选的镜像矩阵中它们可能出现的位置。例如，在结构等价的情况下，我们只允许出现完全块和空块，并且我们期望沿对角线出现一个完整块（核心）和一个空块（外围）。最后，计算机根据模型指定的条件将顶点划分为指定数量的类，并在必要时为模型选择最终的镜像矩阵。在第三步中，块模型完成。
前两步定义了镜像矩阵：我们固定了类的数量和块（关系）的类型，但我们还不知道哪些顶点属于某个特定的类，有时我们不确切知道会找到哪种块类型在镜像矩阵的哪一部分。这是在第三步中解决的。不用说，我们必须对网络有一些了解或期望，才能选择适当数量的类并指定有意义的类之间的关系类型。在导师和学生之间的联系的示例中，我们应该有理由或线索来期待一个核心-外围结构和结构等价。
然而，经验网络很少与镜像矩阵所代表的构想相匹配。会出现错误，但可以轻松检查它们。假设你知道每个类有哪些顶点，那么你可以根据镜像矩阵检查邻接矩阵的每个块是否属于正确的类型。事实上，您将理想矩阵（图 119）与实际矩阵（图 114）进行比较。在结构等价的情况下，计算应该为完全块中缺少的行（在本例中没有），并计算应该为空块中出现的行数（一个错误：弧从学生 s1 到学生 s2，请参见图 121）以获得一个误差值，该分数表明理想矩阵与真实网络的拟合程度。
在这种方法中，块建模的第三步归结为找到将顶点划分为产生最低误差值的等价类，即最适合理想矩阵。首先，计算机将顶点随机分配给指定数量的类。然后，它通过将实际矩阵与由镜像矩阵表示的理想矩阵进行比较来计算该解决方案的误差值。接下来，它尝试通过将随机选择的顶点从一个群组移动到另一个群组或通过交换不同群组中的两个顶点来降低误差值。它继续这个过程，直到它不能再提高误差值。
这种块建模的优化方法具有所有优化技术（例如，Doreian-Mrvar 方法）的优点和缺点，即如果重复应用，它很可能找到最优解，但大多数时候你不能确定是否存在更好的解决方案。此外，您必须意识到，其他数量的类或其他允许的块类型可能会产生更适合的块模型。通常，值得将几个稍微不同的块模型应用于数据集，即对块内或块之间的关系具有其他数量的类或其他约束。这强调了研究人员对假设的镜像矩阵进行仔细考虑的重要性。此外，树在探索性块建模中很麻烦，因为它们包含很多顶点在类之间交换而不会对误差值产生太大影响，因此仅将块建模应用于相当密集的（部分）网络。
在这种优化技术中，可以对误差进行加权并且可以使用边值。我们在这里不做详细介绍，但应该注意的是，误差值越低表示拟合越好，误差值为 0 始终代表完美拟合。
应用
如前所述，块建模包括三个步骤。在前两个步骤中，指定了镜像矩阵：类的数量以及允许的类内和类之间的块或关系的类型。然后，计算机通过搜索将顶点划分为与假设的镜像矩阵最匹配的类来完成块模型。如果可能有多个镜像矩阵，它会选择最适合的一个。误差值显示所选镜像矩阵与网络的匹配程度。
Pajek 的块建模命令反映了这三个步骤。然而，在我们讨论这些命令之前，我们必须警告您，该方法与所有优化技术一样，是耗时的，因此不应将其应用于具有超过数百个顶点的网络，在这种情况下，计算机可能需要一个全天执行命令。因此，该命令在菜单中用星号标记。
Operations> Network + Partition> Extract> SubNetwork Induced by Union of Selected Clusters
在 Pajek 中，有两种块建模方法：一种从头开始搜索最佳拟合partition （随机开始），而另一种只尝试改进现有partition （优化partition）。让我们从后一种方法开始，将其应用到以 1980 年的世界系统位置为起始partition 的世界贸易网络中。这两个文件都在 Pajek 项目文件 world_trade.paj 中可用。从网络中删除 1980 年世界系统位置未知的国家（Operations> Network + Partition> Extract> SubNetwork Induced by Union of Selected Clusters classes 1-4，参见第 12.3 节）。因此，我们选择了 80 个国家中的 52 个（生成新network文件）。该命令还创建了一个新的partition ，都包含其余 52 个国家的世界系统位置。
Network> Create Partition> Blockmodeling∗ > Restricted Options Network> Create Partition> Blockmodeling∗ > Short Report Network> Create Partition> Blockmodeling∗ > Optimize Partition
我们在这里只解释块建模的基本选项。因此，勾选 Network> Create Partition> Blockmodeling> Restricted Options 和 Network> Create Partition> Blockmodeling* > Short Report 以获得与本章中重现的相同的对话框屏幕。
在这里插入图片描述

当您对块建模更加熟悉时，您可以稍后取消选中这些选项。当您从 Network> Create Partition> Blockmodeling∗ 子菜单中选择 Optimize Partition 命令时，活动partition 指定您正在寻找的等价类的数量，这是块建模的第一步。选择命令后，将打开一个对话框（图 122）。选择框显示最后选择的等价类型。我们是结构等价，因此如果列表框尚未显示“结构等价”，请选择这种类型的等价。不更改任何其他选项；只需按下 RUN – Standard 按钮即可执行命令。我们不会在这里讨论第二种可能性（RUN – Fast）。
Pajek 列出了 Report 屏幕中的初始设置，以及初始镜像矩阵、初始误差矩阵和初始partition 的误差值。
在这里插入图片描述

最终结果：
在这里插入图片描述

在我们的示例中，报告了 366 个初始错误：在（52 × 51 = 2652）中的 366 个单元格中，导入在它们应该存在的地方不存在，反之亦然。默认情况下，Pajek 不考虑行值，因此这里不关注导入的值。接下来，Pajek 尝试改进partition 并创建它找到的最佳拟合partition ，并报告最终镜像矩阵、最终误差矩阵和相关的误差值（参见图 123）。最佳partition 比 1980 年的世界系统位置更适合一点，因为误差值已经从 366 降低到 339。但是，我们不确定相对这样规模的网络、这是一个小的还是大的误差值，也许其他数量的类或其他允许的块类型会产生更好的解决方案。
请注意，最终的镜像矩阵具有非常清晰的结构：第一行的单元格都是完全的，而其他所有单元格都是空的。这意味着每个核心国家（第 1 类）都向所有其他国家出口各种金属制品，但在块模型中没有其他国家出口这些产品：它们的行仅包含空（NULL）单元格。误差值表明其中一些国家确实出口了各种金属制品，但块模型假设它们不是。
最佳拟合partition 等于最初的世界系统partition ，除了一个国家从核心转移到强外围。您可以通过在 Partitions 菜单中分别选择初始partition 和新partition 作为第一个和第二个partition ，并执行 Partitions> Info> Cramer’s V, Rajski, Adjusted Rand Index 命令来检查这一点。表 24 显示了原始（列，Partitions下拉菜单中第二个文件默认为列）和优化partition （行，Partitions下拉菜单中第二个文件默认为行）的交叉表。几乎所有国家都在对角边上，表明它们仍处于原来的类别中。只有第一列中一个国家从第一行（核心）移动到第二行（强半外围）。
在这里插入图片描述

Network> Create Partition> Blockmodeling* > Random Start
第二种方法在不考虑程序用户提供的初始partition 的情况下搜索最佳拟合partition 。因此，随机启动命令不需要初始partition 。该命令显示的对话框提供了指定类数（第 1 步）、等价或块模型类型（第 2 步）和重复次数的可能性（参见图 124）。每次重复都使用一个新的随机partition 作为起点，以避免陷入局部最优。通过单击按钮并输入所需的数字来更改这些选择；例如，将群组（Cluster）数更改为 4（核心、强半外围、弱半外围和外围）和重复次数100.
在这里插入图片描述

应用于世界贸易网络中的五十二个分类国家，寻找四个聚类和结构等价，随机开始命令找到一个有 281 个错误的partition 。与 1980 年世界系统位置为等价类的解决方案相比，这是一个相当大的改进。现在，该过程并未确定最适合初始partition 的镜像矩阵（图 123），但它找到了另一个镜像矩阵（表 25；请注意，您可能会得到该镜像矩阵的排列），其中 1 类国家出口向除第 3 类国家以外的所有其他国家制造的金属五金制品，而第 2 类国家则向所有其他国家出口。第 3 类和第 4 类国家只是进口而不是出口各种金属制品。
在这里插入图片描述

12.4.3 正则等价

结构等价要求等价的参与者有相同的邻居。在社会网络分析的几个应用中，这个标准太严格了，因为它群组行为人在不同的地方扮演不同的角色，例如，不同大学的老师有不同的学生，因此他们与相似的人有联系，但不是与同一个人联系。
对于这些情况，定义了另一种等价类型：正则等价。正则等价的顶点不必连接到相同的顶点，但它们必须连接到相同类中的顶点。这听起来像是一个循环论证，但事实并非如此。例如，在学生会讨论网络（第 10 章）中，所有顾问都应该选择部长来讨论学生政治，因为他们应该为部长提供建议。但是，他们不必为相同的部长提供建议，也不必为所有部长提供建议（例如，顾问 2 选择部长 1 到部长 4，但顾问 3 选择部长 5 和部长 7）（图 125）。相反，每位部长都应该使用至少一名顾问的服务，但他或她没有义务听取所有顾问的建议。这也适用于班级内的关系：如果一位部长选择另一位部长，则每位部长必须选择一位同级，并且必须由一位同级选择。然而，一个对等点就足够了：它们不必与所有对等点相关，因此它们的块不一定是完全的。
我们可以通过块建模来检测正则等价，因为有一种特殊的块类型与正则等价相关联，称为正则块。一个正则块在每一行（每个人至少选择一个行为人）和每一列（每个人至少被选择一次）中包含至少一个弧。正则等价允许正则块和空块。请注意，完全块始终是正则块，所以，结构等价是一种特殊的正则等价，或者换句话说，正则等价比结构等价更普遍。

一个正则块在每一行和每一列中至少包含一个弧。

在具有三个班级（每个正式位置一个班级——见图 125）的学生会网络中，有两个块是正则的：部长与顾问之间的选择和部长之间的选择。如果部长 3 和部长 6 也选择了主席，那么包含从部长到主席的选择的块将是完全的（因此是常规的）。两个缺失的选项在图 125 中用黑色十字表示；他们为该网络的正则等价模型的误差值贡献了两个单位。
在这里插入图片描述

在图 125 中，有两个块是空的：从顾问到主席的选择，反之亦然。这两个阶层之间的社会距离似乎太大，无法通过直接协商来跨越。其余三个块既不是空也不是正则，因此它们至少包含一个违反正则等价模型的行为。如果我们假设这些块是空的，那么误差的值是最小的，所以这些块中的所有六个选择都是误差（白色十字），我们假设理想矩阵在这里包含空块。在我们的镜像矩阵中，我们只是指定所有块都应该是空的或正则的。在评估误差值时，我们发现在这里期望空块的错误最小。因此，我们将这些块的类型固定为空块。
图 126 显示了镜像矩阵和每个块中的误差数（误差矩阵），它总结了结果。第 1 类包含主席，第 2 类包含部长，而顾问被分组在第 3 类中。
学生会讨论网络是一个包含特定区块类型位置的等级结构的示例。在等级结构中，行为人应该向上选择。如果等级是这样排序的，最高排名在第一行（和列），最低排名在最后一行（和列），我们应该不会遇到矩阵对角线上方的块的选择，因为它们会从较高等级（行）指向较低等级（列）。实际上，我们仅在学生会网络的镜像矩阵中的对角边上方发现空（null）块，这是等级结构的一般属性。
除了使用特定类型的等价来定义允许的块类型，我们可以使用允许的块类型的任何组合来通过指定每个单独块允许的类型来表征网络，例如，一个部长到主席的完全块，部长自己的正则块，以及部长到顾问块的空块。这称为广义块建模。请注意，块类型比这里介绍的三种类型要多。已知某些块类型模式包含网络类别，即核心-外围模型和等级模型。这些类具有特定的实质性含义，因此很容易解释它们。在不久的将来，经验社会网络的进一步应用可能会揭示更多类别的块模型。
在探索性社会网络分析中，我们主要对检测适合特定网络的块模型感兴趣。块模型告诉我们网络的一般结构，我们找到的等价类可以用作进一步统计分析中的变量。我们应该在这里发出警告。即使在不应该包含正则模式的随机网络上，我们也总能找到最合适的块模型。因此，我们应该将自己限制在理论或先前结果支持的块模型上。我们应该从关于网络中块的数量和类型的动机假设开始。与探索性网络分析的其他情况一样，我们应该尝试验证结果，例如通过将等价类链接到外部数据，例如参与者属性。如果参与者的等价类具有不同的属性、任务或态度，这证实了块模型识别社会角色或角色集的解释。
应用
在 Pajek 中，满足正则等价的块模型同样满足结构等价块模型（参见上一节）：只需在equivalence type下菜单将等价类型中的结构等价替换为正则等价（参见图 122 和 124）。如果我们将 Random Start 块建模过程应用于学生会讨论网络（可在 Pajek 项目文件 student_government.paj 中获得），我们会找到 8 个具有 7 个误差的解决方案（在具有三个类和数百次重复的正则等价条件下）。与前面讨论的将正式角色作为等价类的解决方案相比，这是一个最小的改进，并且它的缺点是必须在七个替代解决方案中做出选择。没有一个方案匹配正式角色，但镜像矩阵类似于图 126 中的镜像矩阵或其排列之一。
请注意，其他数量的类和另一种类型的等价可能会产生更好的解决方案，例如，我们在具有两个类的正则等价解决方案中发现了四个误差，但解释很困难：在一个解决方案中，advisor2 与网络的其余部分分离，这似乎是一个微不足道的解决方案；在另一个解决方案中，advisor1 和 advisor2 加入了 Minister4。因此，我们更倾向于根据学生会中的正式角色进行原始分类。
在块建模中，Structural Equivalence 选项告诉 Pajek 每个块必须是完全的（com）或空的（null）。在正则等价中，每个块必须是完全的、空的或正则的。用户无法控制镜像矩阵中完全块、空块和规则块的位置。相比之下，广义块建模提供了指定（和固定）镜像矩阵中每个块的等价类型的可能性。例如，我们可能想要测试一个正则等价块模型是否与学生会讨论网络匹配三个类，其中每个类都向更高的征求意见（如果有的话），并且除了最低类之外的所有类都向他们自己类的成员建议。
所需的镜像矩阵如图 127 所示；如果在选择框中选择了用户定义选项，它会显示在“另存为 MDL 文件”按钮下方。如果单击该矩阵的其中一个单元格（块），则会打开一个列表，其中显示了 13 种等价项。在此列表中，您可以选择一个或多个（按 Alt 键添加另一个）类型的、您为所选单元格规定的等价性。在示例中，五个单元格被强制为正则等价，其余四个单元格必须为空。此外，如果您认为一个单元格中的误差比另一个单元格中的误差更重要或更不重要，您可以提高或降低所选单元格中的误差的约束。只需点击“Penalty”后的数字并输入一个新数字。
在这里插入图片描述

在图 127 的右上角，您可以看到可以向块模型添加额外的约束。约束涉及关于顶点或顶点对的先验知识，您可以将其分配给特定块或禁止包含在特定块中，以及对块（群组）的最小和最大大小的约束。要添加约束，请在可用约束下拉菜单中双击它。您必须为覆盖约束提供参数和数值，之后约束将添加到 In Model Constraints 下拉菜单中。有关详细信息，请参阅进一步阅读部分中有关广义块建模的参考。
当您定义了自己的块模型后，您可以保存它以备将来使用。按“另存为 MDL 文件”按钮并输入必须存储模型的文件的名称。默认情况下，Pajek 为这些文件提供扩展名 .mdl（模型），我们强烈建议使用此文件扩展名。在另一个块建模会话中，您可以通过在选择框中选择 Load MDL File 选项来打开此文件。加载模型后，您可以通过再次选择“用户定义”选项来检查它。最后，您可以运行块建模命令。
您可以尝试适应网络的块模型的数量是巨大的，尤其是当您设计自己的通用块模型时。因此，我们建议采用以下探索性块建模策略：（1）使用其他分析和理论考虑的结果来组装镜像矩阵；（2）先尝试更严格的块模型和块类型（结构等价比正则等价更严格）； (3) 先尝试较少数量的类。选择误差值最低的块模型，但如果误差值稍高的模型产生易于解释的单一解决方案，您应该更喜欢后者。

12.5 小结

本章再次回顾了本书前面部分介绍的网络家庭：内聚子网、核心-外围结构（经纪）和等级制度。我们提出了一种能够检测这些结构中的每一个的技术，即块建模。
在块建模的情况下，我们需要一个新的网络表示：矩阵。网络的邻接矩阵包含它的结构；每个顶点由一行和一列表示，弧位于矩阵的单元格中：第一行和第一列属于第一个顶点，第二行和列属于第二个顶点，依此类推。当以正确的方式排序时，邻接矩阵提供了网络结构的视觉线索。这种排序称为网络排列，实际上是对顶点的重新编号。
块建模不是一种容易理解的技术。基本上，该技术将社会网络与具有特定结构特征的理想社会网络（即模型）进行比较。研究人员必须提供模型，计算机检查该模型与实际数据的拟合程度。
该模型称为块模型，包含两部分：partition 和镜像矩阵。partition 将网络的顶点分配给类，这些类也称为等价类或位置。在网络的邻接矩阵中，类划分块：单元组成的矩形。沿邻接矩阵对角线的块包含类内的联系，而非对角线的块表示类之间的关系。
在作为块模型的第二部分的镜像矩阵中，每个单元代表邻接矩阵的一个块。它是邻接矩阵的压缩和简化模型。如果一个类中的顶点在结构上相似——我们说是等价的——邻接矩阵中的块具有特定的特征：它们是空的、完全的正规则的，这意味着在一个类中的每个顶点之间至少有一个联系。存在更多类型的块，但我们不在这里展示它们。
镜像矩阵显示了允许的块类型，以及可能的预期位置。此外，镜像矩阵中非空块的分布揭示了网络的整体结构。如果网络包含内聚子组，则沿镜像矩阵的对角线找到非空块。如果网络以核心-外围结构为主，我们会在镜像矩阵的一个水平和一个垂直条带中找到所有非空块。最后，如果有一个等级群组系统，并且顶点根据它们的等级排序，我们在镜像矩阵的下半部分或上半部分找到非空块。
在探索性块建模中，我们搜索最适合社会网络的partition 和镜像矩阵。经验社会网络很少与块模型完美匹配：应该存在的弧不存在，或者应该存在一些不存在的弧。误差的数值表达了一个块模型拟合网络的状况。此误差值用于评估同一网络的不同块模型。
块建模是一种用于分析相当密集的网络的强大技术，但它需要研究人员的正确输入才能产生有趣的结果。可能适合社会网络的块模型的数量很大，因此在对网络的整体结构没有明确概念和期望的情况下着手进行块建模是不明智的。研究人员需要一个关于网络结构的知情假设块建模的卓有成效的应用。从这个意义上说，块建模用于假设检验，而不是探索。