Exploratory Social Network Analysis with Pajek(第三版)11

11、家谱和引文

11.1 引言

时间造成了社会关系中一种特殊的不对称,因为它以不可逆转的方式对事件和世代进行排序。社会身份和地位部分地建立在共同的祖先之上,无论是在生物学意义上(出生)还是在智力上:科学家的引用或艺术家对前人的引用。这是共同血统的社会内聚性,与直接联系的内聚性略有不同(见第二部分)。社会社区和知识传统可以通过一组共同的祖先、结构复链接( Structural relinking)( Structural relinking)(反复通婚的家庭)或长期的论文合集来定义。
家谱对于追溯祖先的声望也很重要。例如,在引文分析中,后代(引文)的数量用于分配重要性和影响到先驱。家谱是这里的基本参照系,所以我们先讨论家谱分析。

11.2 示例一:拉古萨贵族的家谱

拉古萨,现在被称为杜布罗夫尼克(克罗地亚),在七世纪定居在亚得里亚海沿岸。一时间,它处于拜占庭的保护之下,早在十二世纪就成为一个自由公社。拿破仑在 1797 年摧毁了威尼斯共和国,并于 1806 年结束了拉古萨共和国。它一直处于奥地利的控制之下,直到 1918 年奥匈帝国垮台。
在拉古萨,所有的政治权力都掌握在男性手中十八岁以上的贵族。他们是拥有立法权的大议会(Consilium majus)的成员。每年都会选举出 11 名小议会(Consilium minus)成员。与公爵一起,小议会既有行政权,也有代表权。主要权力掌握在参议院(Consilium rogatorum)手中,其中有四十五名成员,任期一年。这个组织阻止了任何单一的家庭的独大,例如佛罗伦萨的美第奇家庭。然而,历史学家一致认为,索尔戈家庭是最有影响力的家庭之一。
拉古萨贵族从十二世纪发展到十四世纪,最终于 1332 年通过法令成立。1332 年之后,直到 1667 年的大地震才接受新的家庭。拉古萨贵族面临的一个主要问题是,因为由于他们数量的减少以及在土耳其控制下的邻近地区缺乏贵族家庭,他们的关系变得越来越密切——第三和第四个被移居的亲戚之间的婚姻很频繁。分析特权社会阶层的家庭如何通过婚姻来组织他们的关系,以及他们如何应对有限数量的子女潜在配偶是很有趣的。
Ragusan.ged 文件包含从 12 世纪到 16 世纪的拉古萨贵族成员,他们的亲属关系(亲子关系);他们的婚姻;以及他们(已知的)出生、结婚和死亡的年份。请注意,这不是一个普通的网络文件,因为它包含顶点的属性和联系。
扩展名 .ged 表示它是 GEDCOM 文件,这是家谱数据的标准格式,如下一节所述。家谱很大;它包含 5,999 人。出于说明目的,我们在文件 Gondola_Petrus.ged(336 人)中选择了一位贵族 Petrus Gondola 的后代。

11.3 家谱

在世界各地,许多人正在编修他们的家谱。他们访问档案,收集有关他们祖先的出生、死亡和婚姻登记册的信息。因为在大多数西方社会,姓氏是这些登记册中的常见条目,而姓氏是父亲的姓氏,因此重建了父系谱系,其中父子关系而不是母子关系连接了几代人。此外,婚姻也包含在家谱中。
在这里插入图片描述

图 95 显示了 Gondola 家谱的一部分,其中包括出生于 1356 年的 Petrus Gondola 的三代后代。请注意,Gondola 父亲所生的孩子也包括在内,因为他们接受 Gondola 姓氏。Gondola母亲的孩子不包括在内,因为在这本姓氏史中,他们的姓氏将他们分配给了另一个家庭。一个例外是 Gondola的母亲,她嫁给了 Gondola 父亲,但是,如图 95 所示,这不会发生在后代中。
原则上,家谱包含以人为单位的人和人之间的两种关系:出生和婚姻。一个人可能属于两个核心家庭:一个是他或她是孩子的家庭,一个是他或她是父母的家庭。前者称为子女或原生家庭(FAMC),后者称为配偶或再生家庭(FAMS)。例如,Petrus Gondola 的再生家庭包括他的妻子和八个孩子,这与他每个孩子的原生家庭相同。夫妻有相同的再生家庭,但除非他们是兄弟姐妹,否则他们有不同的原生家庭。
家谱的标准数据格式(GEDCOM)使用根据原生家庭和再生家庭的双重编码。此外,它还具有存储有关个人和事件(例如,关于他们的婚姻)的各种信息的功能,因此我们建议使用这种数据格式来收集和存储家谱数据。在 Internet 上,可以使用优秀的免费软件和多个家谱数据数据库(参见“进一步阅读”)。
在将家谱表示为网络时,家庭代码被转换为父母和孩子之间的弧边。在被称为矿石图(图 96)的亲属关系的社会图中,男性用三角形表示,女性用椭圆表示,婚姻用(双)边表示,亲子关系用弧表示。请注意,随着时间的流逝,弧从父节点指向子节点。
在这里插入图片描述

与家谱相反,父亲和母亲在矿石图中与他们的孩子相连。这大大简化了亲属关系的计算,因为两个人之间最短半路道(semi-walk)的长度和方向定义了他们的亲属关系;例如,我的祖父母是矿石图中距离我两步的顶点。他们是第二间距(remove)的亲戚,因为此路径中包含两次出生。在父系家谱中,母亲那边的亲戚(例如她的父母和兄弟)不包括在内,因此不可能与他们建立亲属关系。在矿石图中,可以区分血缘关系和婚姻关系,所以我们可以计算出严格意义上的删除,即忽略婚姻关系,也可以在宽松的意义上,包括它们并考虑它们与零距离的关系。
在亲属关系网络的标准显示中,婚姻和兄弟姐妹被绘制在同一层,并且层或者自上而下(图 96)或从左到右排序(图 95)。一层包含一个家谱:祖父母对父母,伯叔、姑姑对孩子、侄女和侄子。这就是我们一生中经历的几代人。然而,从社会的角度来看,我们将世代定义为出生队列(例如,1945-60 世代)。在当代西方社会,社会世代包含出生在大约 15 年之内的人。家谱世代与社会世代在一定程度上重叠。对于四代或更多代人来说,由于早婚和早育在一个家庭分支和晚婚在另一个分支的结果,家谱世代可能会将年龄差异很大的人归为一类。
例如,Petrus Gondola 的曾孙代的出生年龄从 1455 年(Paucho)到 1497 年(Margarita;见图 95)。从生物学上讲,前者可能是后者的祖父。结果,Paucho的孙子可能嫁给了Margarita,从而导致家谱发生了一代人的跳跃,因为它将Petrus Gondola的三代后裔(即Margarita)与五代后裔(Paucho的孙子)联系起来。
矿石图是一种非常有用的工具,可用于查找个人的祖先(谱系)以及父方和母方的后代。此外,很容易计算兄弟姐妹并追踪两个人最近的共同祖先。
应用
Pajek 可以直接读取 GEDCOM 格式的应用程序谱系数据。为获取矿石图,打开前确保Options>Read-Write子菜单中的选项GEDCOM-Pgraph没有被选中GEDCOM 文件。当您勾选选项 Ore: Different relations for male and female links时,婚姻获得边值和关系编号 3(绘制为双边),父子关系具有边值和关系编号 1(实边),母子关系的边值和关系编号为 2(虚边)。如果您想从矿石图中提取父系关系,这将特别有用。在所有其他情况下,最好不要选中此选项,因此所有父子关系都具有边值和关系编号 1。然后,以通用的方式使用File>Network> Read命令打开一个 GEDCOM 文件,但选择在读取对话框屏幕的文件类型下拉菜单中选择 Gedcom 文件 (∗.ged)。
Pajek 将家庭编号转换为父子关系,并创建两个partition 和四个向量。获得的第一个partition 标识为兄弟姐妹的顶点,即同一父亲和母亲所生的孩子。来自父母再婚的继兄弟和继姐妹被单独分组,网络中没有父母的顶点被收集在第 0 类中。第二个partition 是性别partition (男性为 1 类,女性为 2 类)。生成的向量包含每个人在 GEDCOM 文件中的序列号以及他或她的出生、结婚和死亡年份。未知日期由向量值 999999998 表示。您可以按照通常的方式使用 Vector>Info 过程检查日期(参见第 2 章中的第 2.5 节)。
矿石图的谱系世代可以使用命令 Genealogical 从 Network> Acyclic Network> Create Partition> Depth Partition 子菜单中获得。非环型深度划分是不可能的,因为婚姻的边是环状的:丈夫与妻子结婚,妻子同时与丈夫结婚。根据系谱深度划分(Layers> In y Direction in the Draw screen)分层绘制网络,并以通常的方式对其进行优化(Layers>Optimize Layers in x Direction),聚焦不同分支系谱而不是顶点,使用图层菜单中的平均x坐标命令。通常,Forward 选项效果很好,但您可能需要多次应用它才能清楚地分开不同的分支,如图 97 所示。
在这里插入图片描述

[Main] Options> Read – Write> Ore: different relationship for male and female links Network> Create New网络>变换>边值对称
矿石图中最短半路径的长度是家庭关系的间距(remove)或度,前提是所有父子关系的边值为1,婚姻边的边值为0。因此,您必须使用 Ore: Different relations for male and female links 选项未勾选的情况下打开 GEDCOM 文件。婚姻边的值为 3(而不是旧版本的 Pajek 中的 0),因此在计算家庭关系程度之前,您必须将所有边值 3 替换为值 0。您可以通过三个步骤完成此操作,所有步骤都涉及菜单 Network> Create New Network> Transform> Line Values。首先使用 Add Constant 选项并输入 –3。这样婚姻关系的值为 0,但现在父子关系的值为 –2;因此,应用命令 Absolute 然后乘以 (0.5) 将父子链接的所有值设置回 1(婚姻链​​接保持 0)。
首先,决定是否要将婚姻关系纳入家庭关系程度的计算中。如果不是,则从网络中删除边(Network> Create New Network> Transform> Remove>all Edges)。然后,对称化矿石图(Network> Create New Network> Transform> Arcs→Edges> All;不要删除多重边),并使用 All Shortest Paths between Two Vertices 命令来获取网络中两个个体之间的测地距离。当被问到时,不要忽略(forget)边的值,因为婚姻链接不应该对半路径的长度做出贡献,从而导致关系的删除。最短路径的长度,即对称网络中顶点之间的距离,打印在报告屏幕中。例如,在 Petrus Gondola 的后代中(图 95),Paucho Gondola(生于 1455 年)是 Margarita Gondola(生于 1497 年)在第六次迁移中的亲戚。
如果您在其中一个对话框中请求,Pajek 将创建一个新的测地线形网络和一个partition ,用于标识原始网络中测地距离上的顶点。如果我们从原始有向网络中提取这些顶点(Operations> Network + Partition> Extract> SubNetwork Induced by Union of Selected Vertices 并选择类 1)并重新定位这些顶点,我们将获得图 98 所示的网络。注意三角形包括父母两人和一个孩子。从孩子到父亲的直接路径与通过孩子母亲的间接路径一样长,因为婚姻边算作 0 距离。如果我们忽略了行值,那么最短路径将不会包括本例中的母亲(Ana Goce 除外)。
在这里插入图片描述

在图 98 中,很容易看出 Petrus Gondola 和他的妻子 Anna Goce 是 Paucho 和 Margarita 最接近的共同祖先。当然,我们已经可以在原始的家谱中看到这一点(图 95),但我们需要大型网络中的最短路径命令,例如整个 拉古萨贵族的家谱,因为这太复杂了,无法通过目测来分析。
一个人的祖先(谱系)或后代很容易通过矿石图中的Network> Create Partition> k-Neighbours 过程找到。祖先通过路径指向个体,因此它们是其输入邻居。后代可以从个体到达:它们是矿石图中的输出邻居。您可以在 k-Neighbours 过程的最大距离对话框中将祖先的选择限制为有限的代数。请注意,您选择的世代数比您指定的最大距离多一,因为选定的人(也代表一代)被放置在第 0 类中。例如,图 95 中的家谱包含许多与Petrus Gondola 最大距离为3 的邻居(后代)。
矿石图最适合寻找兄弟姐妹和计算族谱网络中兄弟姐妹群体的大小。 Pajek 自动创建一个兄弟/姐妹partition ,用于识别同一对父母的孩子。每个类都是一个兄弟组,除了 0 类,所以一个兄弟姐妹类中的顶点数代表了一个兄弟组的大小。不幸的是,在 Pajek 中从这个partition 中获取兄弟组大小的频率分布并不容易,因为 Partition>Info 命令分别列出了每个兄弟组(类)。
然而,有可能获得具有相同父亲或相同母亲的兄弟群体大小的频率分布。在 矿石图中,如果忽略婚姻边,顶点的出度等于其子节点的数量。理想情况下,家谱网络中每个孩子都有一个父亲和一个母亲,因此我们可以计算每个父亲或母亲的孩子数量。在单身婚姻的情况下,父亲和母亲的子女数量相同;但在再婚的情况下,这些数字可能会有所不同。在这个小示例中(图 96),我父亲再婚了:他有三个孩子(我的继妹、姐姐和我),而我的母亲只有两个孩子(我和姐姐)。因此,我们必须看看超出父亲或母亲的程度,而不是两者兼而有之。
这是通过以下方式实现的。首先,移除矿石图中的婚姻关系(Network> Create New Network> Transform> Remove> all Edges)。现在,顶点的出度等于行为人的子代数,因此使用 Network> Create Partition> Degree> Output 命令创建一个出度partition 并将其选为第一个partition 。接下来,我们需要将 GEDCOM 文件作为矿石图读取时生成的性别partition 。在这个partition 中,男性在 1 类,女性在 2 类。选择这个partition 作为第二个partition 并执行命令 Partitions>Extract SubPartition (Second from First)。在对话框中,选择标识您要选择的性别的类,Pajek 将使用所选顶点的出度创建一个新partition (例如,男性)。
在这里插入图片描述

Partition> Info Partition> Info 命令将生成所需的频率列表(参见表 19)。在Petrus Gondola的后代中,一个人有十二个孩子,其他人的孩子更少。三分之二(67.5%)的男性没有孩子。但是请注意,他们包括家谱中最年轻的男性,他们可能有未包含在数据集中的孩子。
从矿石图中的父子关系和婚姻关系,可以推断出其他几种类型的家庭关系。例如,如果我们知道某人的孩子是第三人的父母,我们就知道第一人是第三人的祖父母。如果我们想分析这种类型的家庭关系,我们可以创建一个用弧表示祖父母关系的网络。通过矩阵乘法,可以创建祖父母和许多其他类型的家庭关系。矩阵乘法是线性代数中的标准运算,需要两个矩阵并产生一个新矩阵。我们可以将网络概念化为矩阵(参见第 12 章),因此我们可以将这种技术应用于网络。
Network> Multiple Relations Network> Extract Relation(s) into separate Networks Networks> Multiply Networks Network> Multiple Relations Network> Change Relation Number – Label Network> Create New Network> Transform> 1-Mode to 2-Mode源自矿石图。
祖父关系可以很容易地从矿石图导出。首先,从矿石图中选择父关系(Network> Multiple Relations Network> Extract Relation(s) into Separate Networks)。其次,将父网络自身相乘:在第一个和第二个网络下拉菜单中选择父网络,然后发出 Networks> Multiply Networks 命令。新网络将包含顶点父母的父母:他们的祖父母。您可能希望使用 Network> Multiple Relations Network> Change Relation Number – Label 命令重新编号和重命名此关系(参见前面)。家庭关系网络是单模网络。也可以将双模网络和单模与双模网络相乘,只要单模网络的顶点构成双模网络中的一种模,并将单模网络变为使用 Network> Create New Network> Transform> 1-Mode to 2-Mode 命令的二模网络。
类似的方式,可以建立多种类型的家庭关系。有时必须添加性别选择——例如,如果您想将祖父与祖母区分开来。您安装 Pajek 的目录中的子目录 Macro>Kinship 包含用于创建这些网络的宏。他们要求您阅读具有不同关系的男性和女性链接的矿石图(见上文)。使用 Macro> Play 命令选择并执行这些宏。

11.4 家谱的社会研究

亲属关系是人类学家和历史学家广泛研究的基本社会关系。与编修私人家谱的人相比,社会科学家主要对整个社区的家谱感兴趣,例如拉古萨的贵族。
这些家谱通常非常庞大,可以研究亲属关系的整体模式,例如,反映婚姻的文化规范:谁可以结婚?财产是按家庭传承的,因此婚姻可以起到保护或扩大家庭财富的作用;家庭关系同步的经济交换。出生、婚姻、死亡的人口统计数据,反映了经济和生态条件(例如,饥荒或致命疾病导致高死亡率)。
不同社会或不同时期的婚姻数量和夫妻年龄以及兄弟姐妹群体、核心家庭或大家庭的规模是确定和可比较的。差异与外部条件和内部系统的规范或规则有关。
在这里插入图片描述

表 20 比较了两个时期拉古萨贵族的子女数量:1200-1250 年和 1300-1350 年出生的男性。不幸的是,许多出生日期是未知的,所以我们从亲属关系网络中添加了父母的孩子和子女的姻亲,假设他们属于同一代人。在 矿石图中,顶点的简单出度指定了一个人的孩子的数量。表 20 总结了出度的频率。在 14 世纪上半叶,与上个世纪相比,很大一部分贵族没有孩子。可能结婚的男性较少,因为截至 1332 年没有新的家庭被贵族接纳。相反,一些男性可能由于 1348 年袭击该镇的黑死病流行而英年早逝。
这种类型的研究可能使用网络分析,但也可以通过数据库计数来完成,例如,在 GEDCOM 家谱数据库上进行计算。然而,第二种类型的研究本质上是关系型的,必须使用网络分析作为工具。它侧重于家庭之间的结构复链接以及结构复链接的经济、社会和文化原因或规则。结构复链接( Structural relinking)( Structural relinking)是指家庭在一段时间内多次通婚的现象。通婚或内婚是家谱内社会内聚性的一个指标。如果家庭通过更多的亲属关系联系在一起,他们会更像一个宗族:分享文化规范,保持密切关系,限制与宗族外家庭的联系。
有两种结构复链接( Structural relinking):血缘婚姻和非血缘复链接。血缘婚姻是有共同祖先的人的婚姻,例如兄弟姐妹之间或孙女和孙子之间的婚姻。这种复链接的发生告诉我们哪些类型的通婚在文化上是允许的,哪些是不允许的。在 拉古萨贵族中,Benko Gondola (Benedictus Gondola) 的孙子娶了一个四代亲属的孙女 (Anucla Bona)(见图 99)。近亲之间的血缘婚姻——一个儿子娶一个女儿,一个女儿嫁给一个孙子——在拉古萨贵族中并没有发生。显然,这些婚姻是不允许的。
非血缘复链接是指没有近亲的家庭之间的多次婚姻。这种类型的复链接通常服务于经济目标,即保持选定家庭的财富和权力。图 99 显示了 Gondola 和 Sorgo 家庭之间的非血缘联系:Petrus Gondola 和 Ana Goce 的两个孙女(Jelussa 和 Decussa)嫁给了 Sorgo 家庭的兄弟(Pasqual 和 Damianus),他们被公认为是最有影响力的家庭。
结构复链接( Structural relinking)在谱系网络中产生半环;例如,Benedictus Gondola 和 Anucla Bona 之间的血缘婚姻闭合了从 Benko Gondola 到他的孙女 Anucla 和他的孙子 Benedictus 的路径(图 99)。 Gondola 和 Sorgo 家庭之间的非血缘复链接也产生了一个半环(Petrus Gondola–Benko–Jelussa Gondola–Pasqual Sorgo–Jele–Damianus Sorgo–Decussa Proculo–Pervula Gondola–Petrus Gondola,以及其他半环)。
然而,在矿石图中,并非所有的半环都代表结构复链接( Structural relinking)。父亲、母亲和孩子也创建了一个半环(例如,图 99 中的 Ana Goce–Petrus Gondola–Pervula Gondola)。此外,父母和两个或更多的孩子创造更大的半环(例如,Ana Goce-Pervula Gondola Petrus Gondola-Benko Gondola-Ana Goce)。再婚会产生更复杂的半环,这些半环并不指向结构复链接( Structural relinking)。
因为很难区分代表结构复链接( Structural relinking)的半环和不代表结构复链接( Structural relinking)的半环,所以开发了一种特殊的系谱网络:亲子图或 P-图。在P-图 中,夫妻和未婚个体是顶点,弧从孩子指向父母。弧的类型显示后代是男性(实线)还是女性(虚线)。例如,在图 100 中,我的儿子和儿媳通过一个实线弧连接到我和我的配偶;我的女儿、女婿用虚边连接。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wh8LuvNp-1655816883080)(vx_images/344940110239086.png)]
P-图有几个优点。它包含较少的顶点,但对称 P 图中的路径距离仍然显示关系的间距,尽管不可能从计算中排除婚姻关系。然而,P-图的主要优点是它是非环型的——已婚人士之间没有边——并且从母亲和父亲到孩子之间没有单独的弧。因此,每个半环和双连通组件都表明结构复链接( Structural relinking),这要么是血缘婚姻,要么是另一种类型的复链接。图 101 显示了与图 99 的矿石图相关联的 P 图。两个半环代表结构复链接( Structural relinking):Benedictus Gondola和Anucla Bona 的血缘婚姻,以及 Gondola 和 Sorgo 家庭之间的无血缘复链接。
在这里插入图片描述

除了复链接的具体案例外,社会网络分析师还对家谱中复链接的数量感兴趣。在 P 图中,这是通过复链接指标( relinking index)来衡量的。为了理解这个指标,我们必须在图论中引入的概念:一个不包含半环的连通图。一棵树有几个有趣的属性,但对于我们的目的来说,它不包含环和半环这一事实是最重要的。

  • 树是不包含半环的连通图。

在 P-图中,每个半环都表示结构复链接( Structural relinking),因为半环上的人或夫妻通过(至少)两条家庭关系链(例如,父亲一方和母亲一方有共同祖父母)联系在一起。因此,作为一棵树或一组不同的树(森林)的 P 图没有复链接,其复链接指数为 0。对给定人数,假设婚姻恰好链接一个男人和一位女性,可以计算家谱 P 图中的最大复链接数量,因此可以将复链接指数表示为实际复链接数量与其最大值的比例。复链接指数,在最大复链接的家谱中为 1,在没有复链接的家谱中为 0。
我们建议在P-图双连通组件内而不是在整个P-图 上计算复链接指数。家谱没有自然边界;亲属关系超出了研究人员收集的数据的边界,但边界设置对于复链接索引的结果很重要。家谱中最大的双连通组件是一个合理的边界,因为它划分了通过至少一个复链接实例集成到系统中的家庭。一般来说,结构复链接( Structural relinking)可用于限定研究的边界,即:将您的分析限制在家谱最大的双连通组件中的家庭。
让我们计算一下拉古萨贵族在 1200-1350 年(新家庭被接纳为贵族)和 1350-1500 年(当时贵族获得特许但没有新家庭被接纳)之间的结构复链接量。因为我们没有出生日期,所以我们将父母的孩子和孩子的姻亲添加到已知至少有一个配偶在选定时期出生的夫妇中。在 1200 年到 1350 年之间,少数夫妻(1412 个顶点中的 137 个,或 9.7%)通过两个或多个家庭关系连接,因此在此期间网络的复链接指数较低(0.02)。在这个双连通组件中,复链接指数较高(0.24),因此有一小部分核心家庭,其中包括 Sorgo 家庭,他们通过通婚密切相关。
在 1350-1500 年期间,双连通组件增大,包含 476 对夫妇(23.7%),其中有许多 Goce、Bodacia 和 Sorgo 家庭的成员。全网复链接指数为0.20,双连通组件内复链接指数为0.69。这两个值都比 1350 年之前的时期大得多,这表明拉古萨贵族之间的内婚制有所增加。
在 P 图中,每个人都用一条弧表示,除了多重婚姻的情况:再婚和一夫多妻制。因为每段婚姻都是一个单独的顶点(例如,图 100 中的父亲和母亲或父亲和继母),再婚的男性和女性由两条或更多条弧表示。在 P 图中,无法区分已婚的叔叔和再婚的父亲,或者无法区分继姐妹和(女性)表亲。这个问题在二分 P 图中得到解决,它有个人的顶点和已婚夫妇的顶点。然而,二分 P 图的缺点是包含比 P 图更多的顶点和边,并且路径距离不对应于亲属关系的路长。我们在本书中不使用二分 P 图。
应用
从 GEDCOM 数据文件中读取的家谱格式取决于在 Options> Read– Write 中选中的选项。如前所述,如果未选中选项 GEDCOM – Pgraph,Pajek 会将 GEDCOM 数据文件转换为矿石图。如果选中此选项但未选中 Bipartite Pgraph 选项,则会创建常规P-图。如果还选中了选项 Pgraph + labels,则将人名用作弧的标签。所有 P 图都有边值和关系号 1 用于男性边和值 2 用于女性边。
Pajek 不会与P-图 一起创建兄弟姐妹partition ,因为兄弟姐妹很容易被识别为代表已婚夫妇或未婚母亲或父亲输入邻居(请记住:弧从孩子指向父母)。它将男性和女性的出生年份存储在不同的向量中,因为一对夫妇有两个出生日期。这也适用于死亡年份。此外,Pajek 还列出了结婚年份(未婚个人为 999999998)、每对夫妇的配偶家庭编号(FAMS)、子女家庭编号(FAMC)和男女分开的顺序编号(INDI)。
我们建议以P-图 的形式打开整个 拉古萨贵族家谱 (Ragusan.ged)(勾选Options> Read – Write 子菜单中的 GEDCOM-Pgraph 选项)并确保将名称用作弧的标签(同时勾选选项 Pgraph + labels)。请注意,读取弧标签需要更多时间并使用更多计算机内存,因此如果您的网络非常大并且您并不真正需要标签,则可能需要忽略它们。
如图 101 所示,顶点的标签在P-图 中可以很长。这会使布局难以阅读。您可以通过选择选项 [Draw] Options> Mark Vertices Using> Mark Cluster Only 来显示选定顶点的标签,而不是显示所有标签。通过在主窗口中选择群组下拉菜单右侧的复选框,然后单击网络下拉菜单右侧的绘图铅笔按钮,可以获得相同的结果。当此选项生效时,当前群组(Cluster)(如果有)中列出的顶点在绘图屏幕中被标记。因此,从一个partition 创建一个群组(参见第 8.3 节)或创建一个空群组(命令 Cluster> Create Empty Cluster)并手动编辑群组,使其包含想要显示标签的顶点。另一种可能性是在多行中显示标签:在应该出现换行符的位置插入 \n。例如,将标签“Petrus Gondola & Ana Goce”更改为“Petrus Gondola \nAna Goce”。如果您手动编辑属于网络的partition (File> Partition> View/Edit ),则可以更改顶点标签。
复链接指标由 Network> Acyclic Network>Info命令计算,并打印在报告屏幕中。请注意,该指标仅对 P 图有效。根据要求,Pajek 将为任何非环型网络计算它,但它的值是没有意义的。在整个 拉古萨贵族的 P 图中,复链接指数为 0.23。 Network> Create New Network> with Bi-Connected Components stored as Relation Numbers File> Hierarchy> View/Edit
如果要计算 P-图中最大双连通组件的复链接指数,则必须先识别双连通组件并提取最大双连通组件。 在第 7 章中介绍的Network> Create New Network> with Bi-Connected Components stored as Relation Numbers 命令,用于标识双连通组件。确保在此命令弹出的对话框中将双连通组件的最小尺寸设置为 3。回想一下,在 Pajek 中,双连通组件存储为关系数。因为关系数已经在P-图 中用于区分男性边和女性边,所以把关系数存储在一个新的网络;不要覆盖旧的关系编号,因为我们可能需要它们进行其他分析。正如您在第 7 章中所了解的,双连通组件也存储为层次结构,因此检查层次结构(File> Hierarchy>View/Edit)以找到最大双连通组件的序号和大小。在 拉古萨贵族家谱中,我们发现了两个双连通组件:第一个包含 5 个顶点,第二个包含 1,446 个顶点。
通过以下方式从网络中提取第二个双连通组件:使用 Hierarchy> Extract Cluster 命令将所需的层次结构类转换为群组,指定层次结构中双连通组件的序号,然后从 Operations> Network + Cluster 菜单中执行 Extract SubNetwork 命令。最后,使用 Network> Acyclic Network> Info 命令计算复链接指标。复链接指数为 0.74,相当高。如果您想在图层中绘制这个双连通组件,请记住弧在 P 图中从子代指向父代,因此最老的代被绘制在“绘图”屏幕的底部。
可以使用 Networks 菜单中的 Fragment 命令找到特定类型的复链接,我们也使用它来跟踪完整的子网(第 3 章)。创建一个代表您想要查找的复链接结构的网络(例如,同一祖父母的两个孙子女之间的婚姻,参见图 102),使用 Network> Create New Network> Empty Network 命令并在 “绘图”屏幕中手动编辑。此片段也可在复链接 grandchildren.net 的文件中找到。选择这个片段作为第一个网络,选择Ragusan贵族家谱的P-graph作为第二个网络。在 Networks> Fragment (First in Second) 窗口中,确保没有选中 Induced,因为现在允许片段中顶点之间的附加边。最后,使用 Find 命令查找片段。 Pajek 遇到此片段的三个实例,其中是 of Benko Gondola 和 Rade Goce两个孙子的婚姻
Networks> Fragment (First in Second)> Check values of lines Networks> Fragment (First in Second)> 检查关系编号如果您想找到具有特定男性边和女性边的片段,确保这些边在片段中具有正确的值(男性为 1,女性为 2;女性边不用虚线)并在 Networks> Fragment (First in Second) 窗口中选择 Check values of lines 选项。通过匹配关系号可以获得相同的结果(在 Networks> Fragment (First in Second) 窗口中选择 Check values of lines选项)。回想一下,在 Pajek 中读取 GEDCOM 文件时,边接收与其关系数和边值作为相同的值,因此您可以使用边值或关系数作为查找片段的标准(但不要忘记也在片段中定义边值和/或关系数。)在 拉古萨网络中,只有两个拥有同一祖父母的孙辈之间的婚姻,其中孙子是父系后裔,而孙女是母系后裔,如图 102中的片段中所示。
在这里插入图片描述

当您想将分析限制在特定出生队列时,您需要一个包含一系列家谱数据的网络。因为 P 图的顶点可能代表夫妻,所以您必须考虑存储在不同向量中的男性和女性的出生年份。您可以决定夫妻双方都必须在选定的时期出生,或者他们中的至少一个必须在该时期出生。然而,我们应该注意,顶点也可能代表未婚个体,在这种情况下,丈夫或妻子是无关紧要的。此外,如果您要求知道丈夫和配偶都在选定的时期出生,那么历史数据中出生日期缺失可能会导致问题。鉴于这些复杂性,我们建议在您的家谱数据库软件中选择正确的时期,生成单独的 GEDCOM 数据文件,并让 Pajek 将其转换为 P 图。然后,跳过本节的其余部分。
如果这是不可能的,但是,您可以通过组合来自不同向量的信息来提取 Pajek 中的子网络。首先,使用 Vector> Make Partition> by Intervals> Selected Thresholds 命令将具有男性和女性出生日期的向量转换为partition 。在对话框中,输入所需期限的限制(例如,如果您对 1350 至 1500 年出生的人感兴趣,请输入 1349 和 1500)。请注意,每个阈值都包含在区间的上限中。此外,包括阈值 999999997 以获得具有 999999998 代码的单独类别,该代码代表未知或不相关的出生日期(例如,在未婚女性数据中的男性出生日期)。用空格分隔阈值
如果我们执行该命令,Pajek 会创建一个包含四个类的partition 。如果我们检查男性出生日期的partition (Partition> Info ),我们会看到 1,025 名男性出生于 1350 年之前,1,493 名男性出生于 1350 年至 1500 年之间,46 名男性出生于 1500 年之后,但1,812 对夫妇或个人没有信息。女性出生日期partition 显示已知有 401 名女性出生于 1350 年至 1500 年之间。
在这里插入图片描述

男性和女性partition 中的四个类别产生了 16 个组合,它们是在表 21 中列出。该表是 Partitions> Info> Cramer’s V. Rajski, Adjusted Rand Index 命令在选择男性出生日期partition 作为第一个partition 并选择女性出生日期partition 作为第二个partition 后生成的输出的一部分。请注意,男性在行中,女性在列中,第二类代表 1350-1500 年,而第四类包含未知且不相关的出生日期。
在表 21 中,第二行包含出生在 1350 到 1500 之间的男性(总共 1,493 人),第二列显示了在此期间出生的女性(401 人)。已知只有 83 对夫妇是在选定时期出生的夫妻。在大多数情况下,我们处理未婚男性或妻子出生日期不明(1,407 例)和未婚女性或丈夫出生日期不明(317 例)。在极少数情况下,已知配偶一方出生在正确的时期,而另一方出生在另一个时期,即 1350 年之前(时期 1):在一种情况下,丈夫出生在 1350 年之前,在三种情况下妻子出生于 1350 年之前。
选择男性或女性在正确时期出生的所有顶点似乎是合理的。如果我们创建一个新的partition 来识别男性出生日期和/或女性出生日期被编码为类 2 的顶点,则可以做到这一点。首先,我们必须对两个出生日期partition 进行二值化,使得周期 1350-1500 (这些partition 中的类 2)在新partition 中变为类 1,而所有其他类变为 0。只需在每个出生日期partition 上执行 Partition> Binarize Partition 命令并在对话框中选择类 2。对两个partition 执行此操作:男性和女性的出生日期。 Partitions> Add (First + Second)
然后选择两个二值化的partition 作为第一和第二个partition 并将它们相加(Partitions> Add (First + Second))。产生的partition 有三个类别:类别 0 包含 (2,565) 个在 1350 和 1500 之间不知出生日期的个人或夫妇,类别 1 包含 (1,728) 个包含丈夫的夫妇或妻子在此期间出生的顶点,类别 2有 (83) 对夫妇,已知配偶双方出生于 1350 年至 1500 年之间。现在我们可以通过执行 Operations> Network +Partition> Extract> SubNetwork Induced by Union of Selected Clusters从 拉古萨贵族家谱中提取所需的子网络,在对话框中从一到二选择群组。该子网络包含 1,811 个顶点。
Macro> Play
在 拉古萨贵族家谱中,许多人出生日期都丢失了。假设同一父母的所有孩子以及孩子的所有父母和姻亲都大致属于同一出生队列,我们​​可以将他们添加到我们所知道的在规定时期出生的人中。我们需要这些间接邻居来维护家谱网络的结构。该过程存储在宏expand_generation.mcr 中,可以通过Macro> Play 命令执行。必须在网络下拉菜单中选择家谱网络(矿石图或 P 图),并且必须在partition 下拉菜单中选择标识所选出生队列的二值化partition 。请注意,我们用于提取出生队列的partition 不是二值的,因为它包含类 0、1 和 2。我们必须首先对其进行二值化,以便所有选定的夫妇和个人都在类 1 中。如果要扩展此出生队列,执行Partition> Binarize Partition,命令并在对话框中选择类 1 和 2。该宏创建了一个新partition ,其中包含第 1 类中的扩展出生队列:在我们的示例中,有 2,007 位单身汉和夫妇。
Operations> Vector + Partition> Extract SubVector Vector> Info
宏可以多次执行以增加选定顶点的数量,但世代跳跃可能会极大地扩展出生日期的范围。我们建议只应用一次宏,然后在选定的顶点中检查已知出生年份的范围。为此,从出生年份向量中提取扩展partition 中选择的顶点:确保在partition 下拉菜单中选择扩展出生队列partition ,并在向量下拉菜单中选择出生年份向量并执行 Operations> Vector + Partition> Extract SubVector 命令(仅选择类 1)。您可以使用 Vector> Info 命令检查提取的年份,该命令会报告最低和最高值:不应有年份远远超出所选时期。在P-图 的情况下,您必须分别检查男性和女性的出生日期。对于男性,已知的出生日期范围从 1280 年(比选定时期早 70 年)到 1500 年。女性出生于 1298 年到 1498 年之间。即使在第一步中,扩展宏也大大延长了出生日期的范围。

11.5 示例二:关于网络中心性的论文之间的引用

在一些社会领域中,系谱学术语被用作非生物亲和力的隐喻。受同一位大师培养或受同一前辈影响的艺术家被认为属于同一家庭或传统。一件艺术品有一个血统:一份前主人的名单。以类似的方式,科学家根据他们的知识谱系进行分类:他们在工作中用作参考框架的理论和理论家。
在科学领域,引文明确了这一参考框架,因此它们是研究科学发展和科学计量学、历史和科学社会学领域的科学社区的宝贵数据来源。它们揭示了文章及其作者对后来科学工作的影响,它们标志着共享知识的科学社区或专业。
在本章中,我们分析了讨论网络中心性主题的文章中的引用。 1979 年,林顿 Freeman 发表了一篇文章,定义了几种中心性。他的类型学已经成为网络分析的标准,所以我们在本书的第 6 章中使用了它。然而, Freeman 并不是第一个发表关于网络中心性的文章。他的文章是可以追溯到 1940 年代的讨论的一部分。图 103 中描述的网络(centrality_literature.net)显示了 1979 年之前讨论网络中心性及其交叉引用的文章。弧表示引用;他们从被引文章指向被引文章。
在这里插入图片描述

原则上,文章只能引用较早出现的文章,因此网络是非环型的。弧从不指向旧文章,就像父母不能比他们的孩子年轻一样。然而,在引文网络中通常有一些例外:相互引用的文章(例如,大约同时出现并由一位作者撰写的文章)。我们通过删除与时间相悖的弧或缩小作者通过循环引用连接的文章来消除这些例外情况。在中心性文献网络中,我们使用了后一种方法。
家谱数据和引文数据之间存在重要差异。引文网络包含一种关系,而家谱数据涉及两种关系:父母身份和婚姻。此外,一篇文章可能会引用所有以前的文章,尽管它们在时间上相距甚远。在一个家谱网络中,孩子有两个(生物学上的)父母,而亲子关系总是将两个连续的世代联系起来。一代的概念在引文网络的上下文中不是很有用,因此我们按发表日期对文章进行排序。在图 103 中,层表示出版年份(centrality_literature_year.clu partition ),这也由顶点标签中的最后两位数字表示。

11.6 引文

现在,引文被用来评估论文、作者和期刊的科学重要性。一般来说,被引用次数越多的项目被认为更重要。书目数据库,例如由科学信息研究所 (ISI) 编制的 Web of Science,列出了大量期刊中的引文。简单的计算得出科学地位指数,例如,期刊的影响因子(该期刊论文的平均引用次数)和即时指数(期刊在其当年的论文的平均引用次数)出版物)。每年,期刊都会根据它们在这些指数上的得分进行排名。在较长时期内进行比较,这些指数显示了科学学科之间的差异。例如,在文科,作者很少引用最近的出版物,而这在自然科学中很常见。
引文分析不仅仅对科学地位的评估感兴趣。它还侧重于专业的识别、研究传统的演变和范式的变化。在特定学科领域或科学专业内工作的研究人员倾向于相互引用和引用共同的前身。引文分析揭示了这些具有内聚性的子群,并研究了它们的制度或范式背景。假设科学知识会随着时间的推移而增加:以前的知识在新的研究项目中得到使用和扩展。引入重要新见解的文章会被引用,直到新结果修改或与之相矛盾。因此,引文分析可能会发现在一段时间内影响研究的文章,并将它们与作为专业支柱的研究传统联系起来。科学革命,即由新见解引起的突然的范式变化,反映在引文网络的突然变化上。
网络分析是从引文中提取专业和研究传统的首选技术。基本上,专业是引文网络中的内聚子组,因此可以使用通常的技术来检测它们。弱组件识别出相互不了解或认为其研究领域之间没有实质性重叠的孤立科学社区。在弱组件中,双连通组件识别来自同一源文本的不同引用的边出现冲重叠的部分。这类似于家谱研究中复链接的概念。
然而,在大多数引文网络中,这些标准还不够强大,因为几乎所有文章都链接到一个双连通组件中。 k-Cores(第 3 章)提供了更深入的观点。例如,中心性文献网络包含一个大的弱组件和十一个岛屿。有一个大的双连通组件,十二个顶点由一个引用连接。该网络的中心由一个包含一个二十九篇论文中的 10 个核心顶点构成那是这个网络的中心顶点(图 104 中的黑色顶点)。该核心中的每篇文章都通过引用与至少十篇其他文章相关联,但我们不知道哪些经常被引用,哪些经常引用他人。
在这里插入图片描述

内聚性概念(如第 3-5 章所讨论的)没有考虑时间。它不反映知识的增量发展,也没有确定对这一发展至关重要的文章。因此,开发了一种特殊的引文分析技术,明确关注时间的流动。称为主路径分析( main path analysis)
让我们将引文网络视为传输科学知识或信息的渠道系统。一篇整合了前几篇文章的信息并添加大量新知识的文章会获得许多引用,这将使对前几篇文章的引用或多或少变得多余。因此,它是渠道的重要交汇处,大量知识流经它。如果知识通过引用流动,那么在许多文章之间的路径中需要的引用比链接文章几乎不需要的引用更重要。最重要的引文构成一条或多条主路径,它们很可能是研究传统的支柱。
主路径分析计算链接文章需要特定引用或文章的程度,称为引用或文章的遍历计数或遍历权重。首先,该过程计算从每个源顶点(未在数据集中正在被引用的文章)到每个汇顶点(未在数据集中已经被引用的文章)的所有路径,并计算包含特定引用的路径数。接下来,它将使用引用的路径数除以网络中源和汇顶点之间的路径总数。这个比例就是引用的遍历权重。同理,可以得到每篇文章的遍历权重。

  • 在无环网络中,源顶点是度数为 0 的顶点。
  • 在无环网络中,汇顶点是一个出度为 0 的顶点。
  • 弧或顶点的遍历权重是包含该弧或顶点的源顶点和汇顶点之间的所有路径的比例。

在这里插入图片描述

例如,图 105 显示了一个由六篇文章按时间从左到右排序的引文网络。有两个源顶点(v1 和 v5)和两个汇顶点(v3 和 v4)。有一条路径连接源顶点v1和汇顶点v3,但没有从 v5 到 v3 的路径。从 v1 到达 v4有四条路径,从 v5 到达v4有三条路径。总之,从源顶点到汇顶点有八条路径。文章v3对文章v1的引用包含在8条路径之一中,因此其遍历权重为0.125。文章 v4 中对 v2 的引用恰好包含在所有路径的一半中。在括号之间报告的顶点的遍历权重以类似的方式计算。
现在我们已经定义并计算了引用的遍历权重,我们可以提取边上遍历计数最高的路径或组件,主路径或主路径组件,假设它们可以识别文学的主流。我们可以分析它们随时间的演变,并寻找反映科学界整合、碎片化或专业化的模式。
在引文网络中,主路径是从源顶点到在其弧上具有最高遍历权重的汇顶点的路径。已经提出了几种从遍历权重网络中提取主路径的方法。我们将首先解释的方法称为前向局部主路径搜索( forward local main path search)。它包括选择与具有最高权重的弧相交的源顶点(一个或多个),选择弧和弧的头部,并重复此步骤直到到达汇顶点。在图 105 的示例中,主路径以顶点 v1 和顶点 v5 开始,因为两个源顶点都与带有 0.25 遍历权重的弧相交。两条弧都指向顶点 v6,它是主路径上的下一个顶点。然后,路径要么继续到顶点 v2 并继续到顶点 v4,要么直接从顶点 v6 到顶点 v4。我们发现了几条主路径,但它们通向同一个汇顶点,因此我们得出结论,该网络代表了一种研究传统。
除了从一个或多个源顶点开始,我们还可以从一个或多个与具有最高权重的弧相交的汇顶点开始,并逆着弧的方向行进。因此,我们得到了后向局部主路径搜索 (backward local main path search)。在图 105 的示例中,我们发现了从汇顶点 v4 开始的向后局部主路径,它与遍历权重为 0.5 的弧相连,因为另一个汇顶点 (v3) 链接到具有低得多的弧遍历权重(只有 0.125)。从顶点 v4 我们向后前进到顶点 v2,从那里到顶点 v6,最后到达顶点 v1 和顶点 v5。
在 key-route 局部主路径搜索中,我们选择有限数量的弧,例如 10。这些通常是具有最高遍历权重的弧。选定的弧称为关键路线。请注意,关键路线不需要是附加到源或汇顶点的弧。它们可以位于非环型网络中的任何位置,因此这是前向和后向局部搜索的主要区别。对于每个 key-route,我们找到从源顶点到 key-route 和从 key-route 到汇顶点的主路径。我们从 key-route 的终端顶点向前搜索,直到到达汇顶点。在每一步中,我们选择具有最高遍历权重的弧。然后我们从 key-route 的初始顶点向后搜索,直到到达源顶点。生成的 Key-route 局部主路径由所有 key-route 获得的主路径组成。如果我们以最高弧边作为图 105 示例网络的唯一Key-route 运行Key-route 局部主路径搜索,我们将获得与前向或后向局部主路径搜索相同的结果。
到目前为止定义的三个方法称为局部主路径方法,因为我们在每一步中仅在局部搜索当前弧;也就是说,我们只检查与当前顶点相关且方向正确的弧。在局部主路径搜索中,我们可以放宽在每一步中仅选择具有最高值的弧的规则。如果我们也接受权重略低于最高值的弧,我们会在搜索中引入容差。如果容差设置为 0,我们只选择具有最高值的弧。但是如果将容差设置为某个正值,例如 0.1,并且最高弧值为 0.5,则所有值大于 0.4 的弧都会被选中。从零容差开始通常是一个好主意,以避免找到非常宽泛(“broad”)的主路径。
与局部搜索方法相比,全局主路径方法搜索具有总遍历权重最高的路径。在这里考虑容差不是一个好主意,因为搜索可能会变得对计算要求很高。我们提出了两种全局方法:标准全局主路径搜索和 Key-route 全局主路径搜索(Standard global
main path search and Key-route global main path search)。
标准全局主路径是从源顶点到汇顶点的路径,路径上的总遍历权重总和最高。这种方法在科学学科中被广泛使用。例如,在项目规划中,它被称为临界路径法( Critical Path Method,CPM)。 CPM 是一种用于安排一组项目活动的算法。对于图 105 中的示例,标准全局主路径产生的结果与使用前向或后向局部主路径搜索获得的结果相同。遍历权重的总和最高为 1。
在 Key-route 全局主路径搜索中,我们再次以一些弧作为 key-routes 开始。对于每个 key-routes,我们搜索包含从源到汇顶点的 key-routes的主路径,具有最高的遍历权重。 Key-route 全局主路径将所有 key-route 获得的主路径联合起来。在图 105 的示例中,以最高弧作为唯一 key-routes的 key-routes全局主路径搜索给出了与前向和后向局部主路径搜索相同的结果,因为从顶点 v2 到 v4 的弧都是 key-routes(遍历权重为 0.5)和部分前向和后向主路径。
通常选择一些具有最高遍历权重的弧(引用)作为关键路边。但这不是必需的。在引文网络分析中,选择一篇或多篇特别感兴趣的论文(不是引用)可能是有意义的,例如您自己写的一些论文,并搜索包含这些论文的主路径。有关主路径搜索的更多详细信息,请查看进一步阅读中的参考资料。
主路径组件按以下方式提取。选择一个介于 0 和 1 之间的截止值,并从网络中删除所有遍历权重低于此值的弧。提取的网络中的组件称为主路径组件。通常,我们会寻找最低的截止值,它会产生一个将至少一个源顶点连接到一个汇顶点的组件。该值等于主路径上的最低遍历权重。在我们的示例中,这个截止值是0.25,我们得到了一个主路径组件,它包含了除v3之外的所有文章,这是该数据集所代表的研究传统中的边缘文章。
当然,文章 v3 在另一个研究传统中可能非常重要。选择要包含在数据集中的文章限制了可以找到的研究传统的数量和规模。像家谱一样,引文网络实际上是无穷无尽的,因此无法在研究项目中完全捕捉到它。研究人员必须对数据收集设置限制,但这应该基于合理的实质性论据。
引文网络通常由书目数据库(如 Web of Science)创建。存储在这些数据库中的书目数据还允许创建其他类型的网络:合着网络、书目耦合网络、合引网络、关键词网络等。请参阅进一步阅读部分以获取参考资料以及将下载从书目数据库转换为 Pajek 网络的软件的链接。
应用
在第 3 章和第 7 章中,我们讨论了用于检测组件、双连通组件和k-cores的命令,它们识别网络中的内聚子组。原则上,引文网络是有向和非环型的,因此您应该搜索弱组件而不是强组件,并在输入和输出关系上找到 k-cores(命令 Network> Create Partition> k cores > All)。
主路径分析在Pajek中非常容易。 Network> Acyclic Network> Create Weighted Network + Vector> Traversal Weights 子菜单中的命令计算非环型网络中边和顶点的遍历权重。共有三个命令:搜索路径计数 (SPC)、搜索路径链接计数 (SPLC) 和搜索路径节点对 (SPNP)。搜索路径计数 (SPC) 命令计算所有源和汇顶点之间的路径,如前所述。搜索路径链接计数 (SPLC) 命令跟踪从所有顶点到汇顶点的路径。在后一种程序中,早期文章的引用权重较低,因为它们不能成为后来产生的路径的文章一部分,因此我们建议仅在早期文章相对不重要的特殊情况下使用它。在搜索路径节点对 (SPNP) 命令中,每个顶点都被视为源和汇。结果,中间的顶点和边将获得更高的遍历权重。
有几种方法可以标准化引文网络中边和顶点的遍历权重。之前我们讨论了 SPC方法根据流的归一化(Network> Acyclic Network> Create Weighted Network + Vector> Traversal Weights> Normalization of Weights>Normalize–Flow)):包括一条边或顶点的路径数除以源和汇之间的路径总数。这种归一化产生了汇和源之间所有路径的百分比,包括顶点或边,这是推荐的归一化。其他选项包括将包含顶点或边的路径数除以在顶点或边中找到的最大值(选项 Normalize–Max),这在根据流的所有遍历权重都很低时很有用,并取包含顶点或边的路径数(选项对数权重),这在遍历权重之间的变化非常大时很有用。最后,可以不对原始计数进行标准化(选项无标准化)。但是请注意,归一化不会影响稍后通过计算遍历权重从引文网络中检索到的主路径。它只是改变了遍历权重的范围和变化。
在这里插入图片描述

将论文的遍历权重(原始顶点)存储在一个向量中,将引文(边)的权重保存为新网络中的边值(标记为“引文权重”),即可以使用 Network> Info> Line Values 命令检查。当我们将搜索路径计数 (SPC) 命令应用于中心性文献网络时,大约 90% 的边的遍历权重为 0.05 或更小,13 条边的值超过 0.103(当您执行 Network> Info> Line Values 命令并请求 #9 群组时,请确保在下拉菜单中选择了标记为“Citation weights (SPC)”的网络)。显然,其中一个引文对中心性文献的发展非常重要:它具有极高的遍历权重 0.41。这是 Leavitt 在 1951 年对 Bavelas 1948 年文章的引用。Bavelas (1948) 和 Leavitt (1951) 以及 Freeman (1979) 和 Flament (1963) 是具有最高遍历权重的顶点。这些是中心性文献中的关键文章。
有时我们想知道哪些文章(不是引文)在引文网络中是最重要的。正如我们已经提到的,文章的遍历权重存储为向量。当您执行命令 Vector> Info时,请确保在下拉菜单中选择标有“引用权重 (SPC)”的向量。在第一个对话框中输入 10,根据遍历权重得到 10 篇最重要的文章。在中心文献网络中,结果并不令人惊讶:最重要的文章是 Bavelas (1948) 的文章,其遍历权重为 0.71,其次是 Freeman (1979) 的遍历权重 (0.56),Flament (1963)遍历权重为 0.46,Leavitt (1951) 的遍历权重为 0.41。所有其他文章的遍历权重均低于 0.40。
遍历权重命令不会自动识别引文网络中的主路径。在计算遍历权重之后,我们必须应用 Network> Acyclic Network> Cre-
ate (Sub)Network> Main Paths命令来获得主路径。请注意,在搜索主路径之前,必须选择具有遍历权重的网络。
我们使用 Network> Acyclic Network> Create (Sub)Network> Main Paths> Local Search> Forward 命令找到正向局部主路径。一个对话框允许我们设置容差,我们通常将其保留为 0。该命令创建一个partition ,标识原始引文网络中主路径(Cluster 1)上的顶点,并生成一个包含主路径、标记为“Forward Local Main Path”的新网络。在中心性文献中,主路径从 Bavelas (1948) 开始,到 Leavitt (1951),最后到 Freeman (1977 和 1979);请参见图 106 中的顶部主路径。作为练习,找到具有非零容差的局部正向主路径。提取的主路径与图 106(顶部)中的主路径有何不同?
在这里插入图片描述

使用标准全局主路径搜索,我们得到的结果略有不同;请参见图 106 中间的主路径。主路径仍然从 Bavelas (1948) 开始,继续到 Leavitt (1951) 和 HeisseM (1951),但随后继续到 ChrisLM (1952),而不是继续到 Shaw … .C (1954)。如果我们进一步遵循标准全局主路径,我们会得到另外四篇不存在于正向局部主路径中的文章 (MacyCL (1953) – LuceMCH (1953) – hristiB(1954) - LanzetR(1957)),但之后我们到达了FlamentA(1958)的文章,它也出现在前向局部主路径中。标准全局主路径的其余部分与作为前向局部主路径一部分的单个路径相同,即:Flament (1961) – Flament (1963) – Beaucha (1965) – Sabidusi (1966) – MaxleyM (1974) ) – Freeman (1977) – Freeman (1979)。
请注意,到目前为止获得的两条主路径都包含最高遍历权重(Leavitt在1951年引用的Bavelas 1948年文章)。 Bavelas 1948 年的文章也是源论文——它没有引用任何其他论文。因此,使用此引用作为唯一 key-route的 key-route局部主路径搜索产生与前向局部主路径搜索相同的结果(图 106 中的顶部主路径)。我们通过在 Network> Acyclic Network> Create (Sub)Network> Main Paths> Local Search> Key-Route 命令的对话框中的 Select rank numbers of key-routes 后面输入 1 来选择 Bavelas 1948 论文引用。这告诉 Pajek 使用具有最高遍历权重的弧(引用)作为唯一的 key-route,或者更准确地说,使用边值列表中排名 1 的弧。我们可以通过在对话框中输入 1-10 来选择遍历权重最高的前 10 个弧。
如果多个顶点具有最大遍历权重,Pajek 选择在 Network> Info> General 中首先报告的其中一个(当在对话框中输入一些正数时)。为了确保我们有 Leavitt 在 1951 年对 Bavelas 1948 的引用,我们应该使用遍历权重检查该弧在网络中的排名。我们可以使用 Network> Info> Line → Rank of its Value 命令找到特定弧的等级数。输入初始和终止顶点编号或标签,“报告”窗口根据其边值显示该边的等级数。通过这种方式,我们可以找到我们想用作 key-route的任何特殊引用的排名。在 Key-Route 命令的对话框中输入弧的等级数。
在本例中,如果我们选择 Leavitt (1951) 对 Bavelas 1948 文章的引用作为唯一的关​​键路径(图 106 中的中间主路径),key-route 全局主路径搜索产生的结果与标准全局主路径搜索相同。请注意,在其他网络中不一定如此。
最后让我们应用最后一种搜索方法:后向局部主路径搜索。通过后向局部主路径搜索获得的主路径包含作为子网络的标准全局主路径(参见图 106 中底部主路径中的灰色顶点)。如果我们比较前向局部和后向局部主路径搜索的结果,我们注意到前向局部搜索在路径末尾添加了更多的文章和引用——当我们接近 Freemans 的文章时——而后向本地搜索则在路径开始处添加了文章和引文,在 Bavelas (1948) 论文之后不久。如果我们在搜索局部主路径时使用一些非零容差,那么更多的文章将被添加到局部主路径中。
如果我们只需要选择一种解决方案,我们可能会选择最常出现的一种。标准全局主路径搜索得到的主路径也是使用key-route全局主路径搜索得到的,是后向局部主路径搜索的子网络(底部主路径中的灰色顶点)。前向局部主路径(和 key-route 局部主路径)中的几篇文章和引用也出现在标准全局主路径中(顶部主路径中的灰色顶点)。因此,标准的全局主路径似乎最适合这个示例。但这不一定是一般规则。对于较大的引文网络,我们建议使用非零容差和更多的key-route来获得更多的主路径,这可能代表不同的研究传统。
代替搜索包含选定key-routes的主路径(这些是代表引文的弧),我们可以还搜索包含选定文章(由顶点表示)的主路径。这很容易做到:首先在群组中选择一篇或多篇有趣的文章(顶点编号),然后运行此菜单中的最后一个命令,名为:Network>
Acyclic Network>Create (Sub)Network>Main Paths>[Global, Local] Search>Through Vertices in Cluster。我们可以再次搜索局部和全局主路径。例如,让我们找到包含 Leavitt (1949) 和 #GilchSW (1954) 文章的主路径。正如我们在图 106 中看到的,这两篇文章不属于任何主路径。首先创建一个空群组(Cluster> Create Empty Cluster)并手动编辑群组,使其包含顶点 2 和 21(2 和 21 分别是 Leavitt 和#GilchSW 文章的顶点数)。最后通过群组中的顶点运行Through Vertices in Cluster (Local or Global)。在全局搜索的情况下,获得的主路径包含 22 篇文章,在局部搜索(零容差)的情况下,它包含 32 篇文章。两条主路径都始于 Bavelas (1948) 的文章,并在 Freeman (1979) 的文章中结束,这也不足为奇。
Network> Acyclic Network> Create (Sub)Network> Main Paths> Mark Main Paths as Multirelational Network
如果在搜索主路径时选中 Mark Main Paths as Multirelational Network,则包含遍历权重的原始网络将转换为多关系网络,其中弧属于到主路径获取关系编号 2,而所有其他弧的关系编号设置为 1。报告窗口中的消息解释了这一点。请注意此选项:如果原始网络已包含多个关系,则这些关系将被覆盖
主路径中弧的最低遍历权重为 0.05,但有趣的是这里使用稍低的截断值来获取主路径组件。让我们删除所有遍历权重低于0.03的弧。这可以通过 Network> Create New Network> Transform 子菜单中的 Remove> Lines with Value> lower实现。Network> Create Partition> Components> Weak than 命令来完成。现在,使用 Network> Create Partition> Components> Weak 命令确定最小大小为 2 的弱组件。该网络包含两个弱组件,一个包含 46 篇文章的大组件,一个包含 Lawson 和 Burgess 的 3 篇文章的小组件,以及 80 个孤立的顶点。
让我们专注于最大的组件,通过 Operations> Network + Partition> Extract> SubNetwork Induced by Union of Selected Clusters命令,使用边最小值 0.03 和弱组件partition抽出该组件 。如果我们还从发布年份partition (centrality_literature_year.clu)中提取该组件中 46 篇文章的发布年份——选择该partition 作为第一个partition ,选择弱组件partition 作为第二个partition ,并使用 Partitions> Extract SubPartition (Second from First) 命令提取第一个弱组件(群组 1)——我们可以将此组件绘制到图层。
在这里插入图片描述

如果我们使用Layers> Averaging x Coordinate 命令(Forward or Backward)对其进行优化,得到的社会图可能看起来像图107。该图显示,关于网络中心性的文献在 1957 年至 1979 年间分为两条边。一条由 Cohen 主导,另一条由 Flament 和 Nieminen 主导。 1979 年, Freeman 在他的经典文章中整合了这两条边。如果顶点的标签因为重叠而无法读取,则将 Draw 窗口设置为 FishEye 模式(FishEye> Cartesian, Polar),正如我们在第 2 章中学习的那样。
Operations> Network + Partition> Transform> Direction> Lower → Higher
几乎同时出现的文章(例如,原始中心网络中 Gilch 的两篇 1954 年的文章)或由于数据收集和编码过程中的错误而错误引用后来的文章可能会妨碍引文网络的非环型属性。然后,遍历权重命令发出警告和停止;网络首先必须是非环型的。如果在 Partition 下拉菜单中选择了根据发布日期的partition ,则可以使用 Operations> Network + Partition> Transform> Direction> Lower → Higher 命令(不要删除群组内的行)删除对以后发布的引用。
然而,在中心性文献网络中,这个解决方案不起作用,因为 Gilch 的两篇文章都出现在 1954 年。在这种情况下,我们不得不合并这些文章。我们计算了最小尺寸为 2 的强组件(Network> Create Partition> Components> Strong),因为它们在有向网络中包含循环连接的顶点(参见第 10 章)。我们使用 Operations> Network + Partition> Shrink Network comm 将每个强组件压缩成新网络中的一个顶点。选择 0 作为不压缩的类,因为该类包含强组件之外的顶点。我们使用 Network> Create New Network> Transform> Remove> Loops 命令删除环,以获得允许计算引文权重的非环型网络。
然而,在最新的 Pajek 版本中,将一个几乎无环的网络转换为一个无环的网络要容易得多:只需应用 Network> Acyclic Network> Transform> Preprint Transformation。该命令通过引入所谓的“预印本顶点”来解决循环引用的问题。在一个强组件内顶点(论文)被复制成一个“预印本”版本。每个强组件内的顶点(论文)会被引用为“预印本”。

11.7 小结

这是最后一章,介绍了在网络分析中处理时间动态的方法。随着时间的推移,社会关系发展成一系列独立的分支。例如,亲属关系创造了几代人迅速扩展的家谱。然而,有时这些边会在一段时间后合并,例如,有共同祖先的人结婚。这被称为结构复链接( Structural relinking),这是随着时间的推移衡量社会内聚性的一种方法。一个有很多复链接的社会系统相对具有内聚性,因为复链接表明人们以自己的群体或家庭成员为导向。
在谱系中,只要我们使用一种特殊的网络:P图,就可以评估结构复链接( Structural relinking)的数量。与用顶点表示每个人、用弧表示父母身份和用(双)边表示婚姻的矿石图相反,在 P 图中,夫妻和单身汉是顶点,个人是弧。因为对称婚姻和平行的母子和父子弧在 P 图中没有用边表示,所以每个双连通组件都是结构复链接( Structural relinking)的一个实例。
分析引文网络的方法处理时间因素的方式略有不同。在这里,我们想要确定作为特定主题文献中关键链接的出版物。科学文章包含知识,引用表明知识如何在科学界流动。每个流都遵循一条引用路径,并且出现在许多路径中的引用对于知识的传播很重要:它们具有很高的遍历权重。具有高遍历权重的引文被链接到主路径,这些路径代表了研究领域的主要发展路边。由某个最小遍历权重的引用连接的文章和作者构成主路径组件,假设这些组件用于识别科学专业或子专业。

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值