Exploratory Social Network Analysis with Pajek（第三版）9

最新推荐文章于 2024-05-30 16:17:47 发布

陳土

最新推荐文章于 2024-05-30 16:17:47 发布

阅读量242

点赞数

分类专栏： pajek 社会网络分析文章标签：算法

本文链接：https://blog.csdn.net/hartfo/article/details/125250521

版权

社会网络分析同时被 2 个专栏收录

25 篇文章 18 订阅

订阅专栏

pajek

18 篇文章 10 订阅

订阅专栏

第四部分排名

前几章很少关注社会关系的方向。在内聚性或中介问题上，知道存在联系比知道是谁发起联系更重要。然而，在这一部分中，方向是核心，尤其是社会关系中的不对称。哪些选择没有回报？社会关系的不对称指向社会声望和等级。
第 9 章将结构声望的概念介绍为接受直接和间接的积极选择。我们将结构声望分数与单独测量的个人的社会声望进行比较，发现存在一些但不完美的重叠。在第 10 章中，我们讨论了从有向网络中不同类型的三元组和非循环组件的出现来推断非正式或潜在排名的技术。最后，第 11 章重点关注具有指示时间流逝的弧的网络：家谱网络和引文网络

九、声望

9.1 引言

在定向网络中，接受许多积极选择的人被认为是有声望的。声望变得突出，尤其是在积极的选择没有得到回报的情况下，例如，如果每个人都喜欢和一个团体中最受欢迎的女孩或男孩一起玩，但他或她并没有和所有人一起玩，或者就情感而言，如果人们倾向于对有声望的人表达积极情绪，但反过来却接受消极情绪。在这些情况下，社会声望与社会权力和不必互惠选择的特权有关。
在社会网络分析中，声望被概念化为一种特殊的社会关系模式。我们讨论了从一个人的社会关系，特别是社会计量选择来计算一个人的结构声望的技术。我们不计算整个网络的声望分数。
结构声望与社会科学或日常言语中的社会声望概念并不完全相同。例如，医学专业被认为是有声望的，但很难将专业视为一个网络，其中许多弧指向医学专业。艺术博物馆的声望可能取决于其收藏的价值和来源，而不是它从其他博物馆吸引（接收）的艺术作品的数量。然而，社会声望可能与结构声望有关。例如，在社区研究中，医生比许多其他专业的成员更经常被提名为寻求建议，而有声望的艺术博物馆比没有声望的博物馆更受艺术评论家的关注。
在本章中，我们将探访关系网络中家庭的结构声望与其社会声望进行比较。如图所示，这两种声望是相关的，但远非相同。因此，请注意不要将结构声望等同于社会声望。相反，找出社会关系的结构声望得分是否匹配由外部变量衡量的社会声望。在特定环境中，哪种社会关系与社会声望有关？

9.2 示例

让我们看看哥斯达黎加 Turrialba 地区另一个村庄的访问关系：San Juan Sur 村包含 75 个庄园（SanJuanSur.net）。在第 3 章中，我们分析了 Attiro 网络中的内聚子群。现在，我们专注于地位和声望。 San Juan Sur 社区的成员对其人口了如指掌，他们被要求根据他们对社区的重要性对所有户主进行排名。该地区每个家庭农场的社会地位被计算为其居民的平均重要性，并分为十四类（partition SanJuanSur_status.clu）。声望领袖被确定为那些在社区内获得大于十个提名的人：您会选择哪些人来代表您和这个地方的人们接受委托？如图81，声望领袖为黑色（partition SanJuanSur_leaders.clu，数据收集在 SanJuanSur2.paj 中）。在本章中，我们将这些分数用作社会声望或地位的指标。
在这里插入图片描述

图 81 描述了简单的访问关系网络。请注意，为了清楚起见，双向弧被边替换。访问关系分为三种类型，由数据文件中的关系编号定义的边条颜色表示：深灰色（或红色）弧（关系编号 2）表示亲属之间的访问，浅灰色（或蓝色）弧（关系编号 3）是受教父或教子关系（教会关系）约束的家庭之间的访问，其他类型的关系用黑色弧边绘制（关系编号 1）。请注意，图 81 中的灰色不会像计算机屏幕上的颜色那样清楚地显示不同类型的访问关系。在本章中，我们从这些访问关系中计算家庭的结构声望，以找出社会声望（地位）是否与结构声望相匹配。

9.3 受欢迎度和入度

乍一看，这张社会图几乎没有告诉我们声望领袖的结构性地位。领袖们分散在网络中。它们位于密集区域（例如 f39 家庭）以及边缘（f23、f47 和 f66 家庭）。我们需要一些计算才能更好地了解结构声望。

顶点的受欢迎度或入度是它在有向网络中接收到的弧的数量。

结构声望的最简单度量称为受欢迎度，它是通过顶点接收的选择数量来衡量的：它的入度。对积极社会关系（例如喜欢）的提名表达了声望；更多的提名表明更高的结构声望，例如在选举或民意调查中。在这个例子中，接待更多的访客表明更高的结构声望。请注意，顶点的入度只能在有向网络中确定。在无向网络中，我们无法衡量声望；相反，我们使用度作为中心度的简单度量（见第 6 章）。事实上，一些中心性度量与应用于无向网络的声望度量相同或相似。
当然，“借钱给某人”这种关系的高度不反映行为人的受欢迎度；它只是识别欠许多人钱的人。我们应该注意到，如果我们在这样的网络中转置弧，也就是说，如果我们反转弧的方向，则入度确实反映了声望。在转置网络中，弧代表“欠钱”的关系，拥有大的入度的人说明借钱给许多其他人。大概，这个行为人比起其他行为人来说是相当有钱，更有声望。
在原始网络中，弧的方向取决于研究人员定义关系和表述社会计量问题的方式。在分析中，有时最好改变弧的方向。您可以这样做，因为转置后的网络中不会丢失任何信息：只需再次转置，即可获得原始网络。有趣的是，网络的几个结构属性在转置弧时不会改变（例如，组件保持不变），而其他属性只是交换（例如，出度变为入度，反之亦然）。
应用
在第 3 章中，您学习了在有向网络中计算顶点的入度，方法是通过Network>Create Partition>Degree> Input。此命令创建一个新partition ，可以使用 Partition> Info 显示该partition 。表 13 显示了San Juan Sur家庭农场入度的频率计数。 13 个家庭没有被访问，所以他们的度数为 0。他们的结构声望最小。家庭编号 f41 最受欢迎，因为有 12 个家庭访问它（参见表 13 中第 12 类的条目）。请注意，入度等于来访家庭的数量，因为没有多重边。在图 81 中，我们可以看到家庭 f41 收到的大量访问。这个简单的频率表比社会图更能概括受欢迎度的分布。该表显示，一半的家庭最多接受两次探视。不超过五分之一的家庭接受五次或更多的访问（见列 CumFreq%）。
在这里插入图片描述

声望领袖怎么样？我们是否可以得出结论，包含声望领袖的家庭也拥有结构声望？查看社会图或入度partition （使用File> Partition> View/Edit），我们注意到声望领袖f23、f39、f47、f61和f66的入度分别为3、8、1、5和5。除 f47 家庭外，所有声望领袖的入度都高于平均水平，五个家庭中有三个属于前 20%，因为他们接受了五次或更多的访问。因此，我们得出的结论是，声望领袖经常被拜访，但其他家庭的拜访次数更多。在这个例子中，以入度衡量的结构声望并不能完全区分声望领袖和其他经常访问的家庭。
如果关系从更有声望的顶点指向不太有声望的顶点，如“借钱给”的情况，你应该改变网络中所有关系的方向。这可以通过 Network> Create New Network> Transform> Transpose> 1-Mode 命令简单地完成。

9.4 相关性

以入度表示的结构声望是否与社区内专家评价的社会地位相匹配？为了回答这个问题，我们必须将标准统计分析应用于我们的网络分析结果，即结构声望分数。因为这不是统计学课程，所以我们尽量保持简单。我们的主要目标是表明社交网络分析和统计分析是在社会研究中很好地协同工作的两组技术。
在统计学中，两种现象之间的关联通常由相关系数来衡量。相关系数范围从 1 到 –1。正系数表示一个特征的高分与另一个特征的高分相关（例如，高社会地位的家庭出现高结构声望）。负系数指向负或反向关系：一个特征的高分与另一个特征的低分相结合（例如，高结构声望主要与低社会地位的家庭有关）。根据经验，如果系数的绝对值小于 0.05，我们可以说没有相关性。如果一个系数的绝对值在 0.05 到 0.25 之间，则弱相关，系数从 0.25 到 0.60（和 –0.25 到 –0.60）表示中度相关，而 0.60 到 1.00（或 –0.60 到 –1.00）被解释为强相关。通常，系数 1 或 –1 被称为显示完全关联，但除非您将某个特征与自身关联起来，否则您不太可能会发现这一点。
在 Pajek 中，可以计算两种相关系数：Spearman 排名相关和 Pearson 相关。 Spearman 排名相关性决定了顶点在一个特征（例如，入度）上的排名是否与另一个特征（例如，状态）的排名相匹配。排名之间的差异大小并不重要。当然，这两个特征都必须有可以排名的分数。如果几乎不存在重复排名，Spearman 的排名相关性是一种强有力的相关性度量。
Pearson 的相关系数使用两个特征的精确数值分数。它假设两个特征之间存在线性关联，这意味着一个特征的单位增加将与另一个特征的固定增加（或减少）相关。在我们的示例中，Pearson 的相关性假设结构声望增加 1 度伴随着社会地位固定数量的变化（例如，变化2.4 的社会声望点）。
Pearson 比 Spearman 更精确、更敏感。这既可以是优势，也可以是劣势。如果网络中顶点的两个特征之间存在线性关联，则 Pearson 的相关系数比 Spearman 的相关系数描述它更准确。然而，一个特征的单位变化与另一个特征的固定变化相关联的假设是非常严格的，并且通常难以满足。例如，一个入度的变化可能与低入度阶层的家庭的社会地位变化有较强关联，而对于中等或上层阶层的家庭，这种关联性较小。在这种情况下， Pearson 系数低估了实际关联，而 Spearman没有。因此，只有在其结果与 Spearman 系数相差不大的情况下，才使用 Pearson 相关系数是很重要的。如果结果差异很大，则数据包含不规则性。
应用
要计算相关系数，我们需要网络中每个顶点的两个特征。如第 2 章所述，顶点的特征存储在partition 和向量中。一个partition 包含整数；向量是带小数的数字列表。因为 Spearman 的排名相关系数只考虑分数的（离散）排名顺序，所以它对partition 进行操作。要计算 Spearman，您需要两个partition 。因此，Spearman 可以在 Partitions 菜单中找到。然而，Pearson 的相关系数使用分数的确切大小。在 Pajek 中，Pearson 需要两个向量作为输入数据，程序可以在 Vectors 菜单中找到。

社会地位分数作为一个partition (SanJuanSur_status .clu) 可用，必须在 Pajek 中打开该partition 以计算其与入度partition 的相关性。在 Partitions 下拉菜单中选择两个partition 。哪个partition 是第一个并不重要。当两个partition 都被选中时，Partitions> Info> Spearman Rank （参见图 82），Pajek 计算排名相关系数。在这种情况下，它是 0.40，这意味着在度数和社会地位之间存在适度的正相关。入度高的家庭趋向于拥有更高的社会地位。因此，我们可以得出结论，在这个例子中，结构声望与地位适度相关。
在这里插入图片描述

Pearson 的相关系数以类似的方式计算。选择第一个和第二个向量，然后从 Vectors 菜单中选择 Info 子菜单，除了 Pearson 系数之外没有其他选项。在此示例中，您可以使用输入度partition 和社会地位partition (SanJuanSur_status.clu)，但您必须先使用 Partition> Copy to Vector 命令将这两个partition 转换为向量。 Pearson 相关系数为 0.35，略低于 Spearman 相关，说明该关联不是线性的。然而，使用前面指定的经验法则，我们对程度和社会地位之间的关联得出了相同的结论。

9.5 域

受欢迎度是一种非常有限的声望衡量标准，因为它只考虑直接选择。对于受欢迎度，无论选择是来自不是自己选择的人还是来自受欢迎的人，都无关紧要。网络的整体结构被忽略。
已经做出了一些努力来将声望扩展到间接选择。想到的第一个想法是计算所有直接或间接提名某人的人，即没有或有中间人。这是行为人的输入域，被称为影响域，因为结构上享有盛誉的人被认为会影响将他们视为领导者的人。一个人的输入域越大，他或她的结构声望就越高。

有向网络中顶点的输入域是通过路径连接到该顶点的所有其他顶点的数量或百分比。

请注意，在“借钱给”等关系的情况下，输出域更有可能反映声望。定义一个顶点的输出域很容易，我们猜你理解一个顶点的输出域与转置网络中顶点的输入域是相同的。实际上，我们可以区分三个域：输入域、输出域和全域，即输入域和输出域的并集。
在这里插入图片描述

让我们再看一下访问关系网络，以了解输入域的概念。图 83 包含族 f47 的输入域中的顶点以及通向该家庭的路径。顶点内的数字表示到 f47 族的距离。显然，家庭 f47 与自身的距离为 0。这个家庭只有家庭f4访问：它到家庭f47的距离为1。家庭f2、f3和f5访问家庭f4，因此他们可以通过家庭f4（距离2）到达家庭f47。四个家庭（距离 3）访问了他们，依此类推。最终， San Juan Sur剩下的 74 个家庭中的 64 个（86%）可以联系到 f47 家庭。 f47 家庭的输入域等于 64 个顶点，即 86%。
家庭 f47 输入域之外的十个家庭（图 83 中未绘制）包括声望领袖 f23 和 f39 以及来自网络最密集部分的几个家庭（例如 f40、f43、f44、f45 和 f48 )，其中家庭f41度数最高。家庭f47，同样是声望领袖，结果对于网络中心的声望领袖来说是遥不可及的。这个家庭可能被一个相对孤立的家庭群体提名为代表，包括家庭 f2、f3、f4 和 f5。在这种情况下，声望领袖并不一定意味着较高的整体社会或结构声望。声望领袖可能只是比他或她所代表的子群体更有声望。
在具有许多互惠关系的连接良好的网络中，顶点可以从大多数其他顶点到达。因此，输入域得分几乎没有变化。在这种情况下，更有趣的是在声望指数中捕捉网络结构，而不考虑整个输入域的声望指数。例如，我们可以计算一个或两个步骤能够到达一个人的顶点：直接选择和间接选择，只有一个中间人。这个受限制的输入域仅考虑提名人的直接受欢迎度。限制为两步（距离 2）的族 f47 的输入域为 4（或 5%）：距离 1 的一个族（f4）和距离 2 的三个族（f2、f3 和 f5）（见图83)。
应用
可以通过 Network> Create Partition> k-Neighbours> Input 命令找到特定顶点的输入域，这已在第 6 章中讨论。在第一个对话框中，输入顶点的编号或标签（例如 f47），然后在第二个对话框中接受默认值 (0) 以计算所有距离。然后，该命令创建一个partition ，指定所有顶点到选定顶点的距离。从使用 Partition>Info 命令（表 14）创建的频率表中，您可以计算选定顶点的输入域中特定最大距离处的顶点数 (CumFreq)；
在这里插入图片描述

例如，最大距离 2 处的输入域包含四个顶点：最大距离 2 处的五个顶点减去 f47 族本身。表中标识为“未知”的条目显示了未通过到所选顶点的路径连接的顶点数：它们不属于其输入域。在我们的示例中，74 个顶点中有 10 个（不计算所选顶点本身！）位于 f47 族的输入域之外，即 14%；其余 86% 的顶点在其输入域内。请注意，您无法在表中找到这些百分比，因为那里的所有百分比都包括 f47 系列。
对网络中的每个顶点重复此命令相当麻烦，因此 Pajek 包含一个命令，可以一次性计算所有顶点的输入域的大小：Network > Create Vector > Centrality> Proximity Prestige> Input 。使用命令输入将分析限制为仅对传入的弧。与 k-Neighbours 显示的对话框类似的对话框允许您指定输入域的最大距离。
Proximity Prestige> Input 命令生成四个新数据对象：一个partition 和三个向量（这就是该命令位于 Create Vector 子菜单中的原因）。partition 指定每个顶点的输入域内的顶点数。标记为“Normalized Size of Input Domain” 的向量列出了输入域的大小占所有顶点的比例（减去顶点本身），第二个向量给出了从其输入域中的所有顶点到顶点的平均距离。当然，对于具有空输入域的顶点，即根本没有选择的顶点，不可能计算平均距离。在这种情况下，平均距离设置为 999999998，表示无穷大。
在这里插入图片描述

表 15 列出了访问关系网络中输入域的大小。九个家庭有最大的输入域；它们可以从所有 74 个其他顶点到达。声望领袖 f23 和 f39 也在其中。如前所述，第三个声望领袖家庭 f47 位于输入域大小为 64 的类中。使用File> Partition> View/Edit程序检查具有输入域大小的partition ，我们发现声望领袖 f66也属于这个类。 f61 家庭是唯一一个具有 6 大小的小输入域的声望领袖。我们可以得出结论，大多数声望领袖具有大输入域，但许多具有同样大输入域的家庭不是声望领袖。
以输入域的大小衡量的结构声望与由社会地位分数表示的社会声望之间的等级相关性可以很容易地计算出来（见第 9.4 节）。 Spearman 的排名相关系数为 0.36，略小于受欢迎度（indegree）和社会地位之间的排名相关。然而，它指出了输入域和社会地位之间的积极、适度的关联：更大的输入域发生在社会地位较高的家庭中。

9.6 近距声望（Proximity Prestige）

在上一节中，我们注意到顶点的输入域并不是一个完美的声望度量。在一个连接良好的网络中，一个顶点的输入域通常包含所有或几乎所有其他顶点，因此它不能很好地区分顶点。在这种情况下，我们提出将输入域限制为直接邻居或最大距离为 2 的邻居，假设近邻的提名比远邻的提名更重要。如果间接选择由较长的中间人链进行传导，则其对声望的贡献较小。
当然，在受限输入域内选择与邻居的最大距离是非常随意的。近距声望的概念克服了这个问题。这个声望指数考虑了一个顶点的输入域内的所有顶点，但是如果它由更近的邻居提名就更重要。换言之，近邻的提名比远邻的提名更能提升行为人的近距声望，但多个“远邻提名”的贡献可能与一个“近邻提名”一样多。
为了允许直接选择比间接选择对顶点的声望贡献更多，近距声望通过其到顶点的路径距离对每个选择进行加权。距离越大，对顶点的近距声望的贡献就越小，但每个选择都会有所贡献。在计算近距声望时，这是通过将顶点的输入域（表示为可能是输入域的一部分的所有顶点的比例）除以与输入域中所有顶点的平均距离来实现的。更大的输入域（更大的分子）会产生更高的近距声望，因为更多的顶点直接或间接地选择了参与者。此外，较小的平均距离（较小的分母）会产生较高的近距声望分数，因为有更多的近邻提名。
如果一个顶点被所有其他顶点直接选择，则可以获得最大的近距声望。例如，在所有选择都指向中心顶点的星形网络中就是这种情况。那么，输入域中顶点的比例为1，与这些顶点的平均距离为1，因此近距声望为1除以1。没有输入域的顶点根据定义得到最小的近距声望，即0。

顶点近距声望是其输入域中所有顶点（除了自身）的比例除以与其输入域中所有顶点的平均距离。

在图 84 中，网络极端的所有顶点（v2、v4、v5、v6 和 v10）都有空输入域；因此，它们的邻近度得分为 0。顶点 v9 的输入域仅包含顶点 v10，因此其大小为 9 (0.11) 中的 1。顶点 v9 的输入域内的平均距离为 1，因此顶点 9 的近距声望为 0.11 除以 1。您可以看到，如果顶点从顶点 v10 到 v1 的“尾巴”较长，则顶点的近距声望会增加。 Vertex v1 有一个最大值，因为
所有九个顶点都可以到达它（比例为 1.00）。平均距离为 2.0，因此接近声望等于 1.00 除以 2.0，即 0.5。
应用
在上一节中，我们学习了如何计算输入域的大小以及与输入域内所有顶点的平均距离。正如标题所暗示的，同样的命令（Network> Create Vector> Centrality> Proximity Prestige> Input）还返回第三个向量，称为“Input Proximity Prestige”。使用命令 Vector> Info 或使用 File> Vector> View/Edit 浏览所有顶点的近距声望分数。近距声望分数范围从 0 到 1。
在San Juan Sur的访问关系网络中，近距声望范围从 0.0 到 0.33。 f41家庭拥有最高的近距声望。五位声望领袖中有三位的近距声望高于平均水平（0.12）。然而，家庭 f47 (0.11) 和 f61 (0.07) 的近距声望低于平均水平。我们必须得出结论，声望领袖并不具有高接近声望的特点。在 9.5 节中，我们注意到 f47 家庭在网络中占有特殊的位置。检查平均距离证实了这一点：家庭 f47 的平均距离最大（8.03）。这个家庭在网络上很难联系到。
最后，让我们看看近距声望是否与San Juan Sur的社会地位有关。在我们计算 Spearman 的排名相关系数之前，我们必须将具有近距声望分数的向量转换为一个partition 。如第 2 章所述，这可以通过多种方式完成。在这种情况下，将向量转换为partition 的最简单方法是使用过程 Vector> Make Partition> by Intervals> First Threshold and Step 创建等宽的类。指定 0.01 作为第一个阈值（最低类的上限），并输入此数字作为步长（类宽度）以获得 0 到 100 之间的类的partition 。 Partitions> Info> Spearman Rank
新创建的partition 具有近距声望的分数可以与现有的具有社会地位的partition （SanJuanSur_status.clu）相关联，方法见第 9.4节。Spearman相关系数为 0.26，表明网络内的近距声望与社区成员分别评定的社会地位之间存在低或中等关联。在这个例子中，社会地位与近距声望的关系比与声望（度数）的关系要小，其等级相关性为 0.40（见第 9.4 节）。

9.7 小结

这是本书处理社交网络中的不对称性的第一章。我们提出了考虑关系方向的最简单方法，即只关注传入关系。做到这一点的结构指数被称为声望测量。接受很多选择的行为人很受欢迎，当然前提是这些选择表达了积极的社会关系。受欢迎度，以顶点的入度来衡量，是我们讨论的第一个声望指标。更高级的声望测量也考虑了间接选择。我们提出了两个高级度量：顶点的输入域和近距声望。
区分结构声望和社会声望很重要。本章介绍的指数评估结构声望，即网络分析师称之为声望的关系模式。他们之所以被称为声望，是因为在网络上享有盛誉的行为人往往享有很高的社会声望。然而，我们使用的例子表明，结构声望和社会声望并不完全匹配。我们只发现中度关联。我们使用相关系数来建立独立于网络测量的结构声望和社会地位分数之间的关联强度。这是一个重要的研究策略的例子，即在统计数据中使用声望分数等结构性指标。