NLP--中心性算法(Centrality Algorithms)总结【原理】

文章目录

中心性算法 Centrality Algorithms

一、度中心性(Degree centrality)

二、接近中心性(Closeness centrality)

三、中介中心性(Betweenness centrality)

四、特征向量中心性(Eigenvector centrality)

(一)Katz中心性

(二)PageRank 中心性

(三)ArticleRank

其他

(一)渗透中心性(Percolation centrality)

(二)跨集团中心性(Cross-clique centrality)

(三)弗里曼中心化(Freeman centralization)

(四)基于差异的中心性度量(Dissimilarity based centrality measures)

(五)阿尔法中心性(Alpha centrality)

总结

参考链接


中心性算法 Centrality Algorithms

中心性概念最初是在社会网络分析(SNA)中发展起来的,许多用于衡量中心性的术语反映了它们的社会学渊源。

图论网络分析中,中心性指标将数字或排名分配给图中对应于其网络位置的节点。应用包括:识别社交网络中最有影响力的人、互联网或城市网络中的关键基础设施节点、疾病的超级传播者和大脑网络。

通俗来说,中心性算法就是用于确定网络中不同节点的重要性

这时候,不禁疑问“什么是重要的顶点,有什么特征呢?”,根据中心性指数来进行回答,根据图中每个节点上的值来确定,对这些值进行排名,进而识别最重要节点。

术语表

术语定义
社会网络分析( SNA )

社会网络分析( SNA ) 是通过使用网络和图论研究社会结构的过程。

它根据节点(网络中的个体参与者、人或事物)以及连接它们的联系、边缘或链接(关系或交互)来表征网络结构。

通常通过社交网络分析可视化的社会结构示例包括社交媒体网络、模因传播、信息流通、 友谊和熟人网络、商业网络、知识网络、 困难的工作关系、 社交网络、协作图、亲属关系、疾病传播和性关系。

这些网络通常通过社会图来可视化,其中节点表示为点,关系表示为线。这些可视化通过改变节点和边缘的视觉表示来反映感兴趣的属性,提供了一种定性评估网络的方法。

图论

图由通过边(也称为链接或线)连接的顶点(也称为节点或点)组成。无向图和有向图之间存在区别,无向图是边对称地连接两个顶点,而有向图是边不对称地连接两个顶点。

一个图是一个有序对G=(V,E)包括:

(1) V,一组顶点也称为节点

(2)E,一组]边(也称为链接线),它们是无序的顶点对(即,一条边与两个不同的顶点相关联)

对节点重要性的解释有很多,不同的解释下判定中心性的指标也有所不同。


一、度中心性(Degree centrality)

度中心性,它被定义为一个节点上的链接数(即,一个节点具有的关系数)。

根据节点捕获流经网络的任何内容(例如病毒或某些信息)的直接风险来解释。在有向网络的情况下(关系有方向),我们通常定义两个独立的度中心性度量,即入度(indegree)和出度(outdegree)。 

因此,入度是指向该节点的关联数的计数,而出度是该节点指向其他节点的关联数。当关系与友谊或合作等积极方面相关联时,入度通常被解释为一种受欢迎的形式,而出度通常被解释为合群。

在无向网络中,我们可以用一个节点的度数(相当于你的微信好友数)来衡量中心性。

这一指标背后的假设是:重要的节点就是拥有许多连接的节点。你的社会关系越多,你的影响力就越强

用例:

  • 度中心性是任何试图确定社交网络中最重要的人的尝试的重要组成部分。

  • 加权度中心性已用于帮助将欺诈者与在线拍卖的合法用户区分开来。欺诈者的加权中心地位要高得多,因为他们倾向于相互勾结,人为地提高物品的价格。

二、接近中心性(Closeness centrality)

在连接的图中,节点的接近中心性(或亲密度)是网络中心性的度量,计算为节点和图中所有其他节点之间最短路径的长度总和的倒数。因此,节点越中心,它与所有其他节点 越接近。

接近中心性高的节点一般扮演的是八婆的角色(gossiper)。他们不一定是名人,但是乐于在不同的人群之间传递消息。

每个节点旁边的数字是从最短路径的长度测量的从该节点到方形红节点的距离。绿色边缘说明了红色正方形节点和红色圆节点之间的两个最短路径之一。因此,红色正方形节点的接近度为5/(1+1+1+2+2)= 5/7。

 对于每个节点 u,Closeness Centrality 算法根据计算所有节点对之间的最短路径来计算其与所有其他节点的距离之和。然后反转结果的总和,以确定该节点的接近中心性分数。

节点 u原始接近中心性使用的公式:

raw closeness centrality(*u*) = 1 / sum(distance from *u* to all other nodes)

更常见的做法是将此分数归一化,使其表示最短路径的平均长度,而不是其总和。这种调整允许比较不同大小的图形节点的接近中心性。

节点 u归一化接近中心性的公式如下:

normalized closeness centrality(*u*) = (number of nodes - 1) / sum(distance from *u* to all other nodes)

在无向图中取距离或到所有其他节点的距离是无关紧要的,而在有向图中它可以产生完全不同的结果(例如,一个网站可以具有来自传出链接的高接近中心性,但来自传入链接的接近中心性低)。

用例:

  • 接近中心性用于研究组织网络,其中具有高度亲密中心性的个人处于有利地位,可以控制和获取组织内的重要信息和资源。

  • 接近度中心性可以解释为通过电信或包裹递送网络流动的信息的估计到达时间,其中信息通过最短路径流向预定义的目标。它还可用于信息同时通过所有最短路径传播的网络,例如通过社交网络传播的感染。

  • 接近度中心性已用于根据基于图形的关键短语提取过程来估计文档中单词的重要性。

三、中介中心性(Betweenness centrality)

经过某个节点的最短路径的数目来刻画节点重要性的指标就称为介数中心性(Betweeness centrality),简称介数(BC)

中介中心性的思想是:如果一个成员位于其他成员的多条最短路径上,那么该成员就是核心成员,就具有较大的中介中心性。

也就是说,计算网络中任意两个节点的所有最短路径,如果这些最短路径中很多条都经过了某个节点,那么就认为这个节点的介中心性高。

中介中心性量化了一个节点充当其他两个节点之间最短路径的桥梁的次数。

中间性中心性是一种检测节点对图形中信息流的影响量的方法。

四、特征向量中心性(Eigenvector centrality)

在图论中,特征向量中心性(也称为特征中心性或声望分数)是衡量网络中节点影响的指标。

基于与高得分节点的连接比与低得分节点的相等连接对所讨论节点的得分贡献更大的概念,将相对分数分配给网络中的所有节点。高特征向量分数意味着一个节点连接到许多本身具有高分数的节点。(一个节点的重要性既取决于其邻居节点的数量(即该节点的度),也取决于其邻居节点的重要性。 换句话说,在一个网络中,如果一个人拥有很多重要的朋友,那么他也将是非常重要的。与你连接的人越重要,你也就越重要。)

特征向量中心性和度中心性不同,一个度中心性高即拥有很多连接的节点,特征向量中心性不一定高,因为所有的连接者有可能特征向量中心性很低。同理,特征向量中心性高并不意味着它的点度中心性高,它拥有很少但很重要的连接者也可以拥有高特征向量中心性。

Google的PageRank和Katz 中心性是特征向量中心性的变体。

(一)Katz中心性

Katz 中心性是衡量网络中心性的指标。

Katz 中心性度量通过考虑一对参与者之间的步行总数来衡量影响。

Katz 中心性通过测量直接邻居(一级节点)以及网络中通过这些直接邻居连接到所考虑节点的所有其他节点的数量来计算网络中节点的相对影响。然而,与远邻建立的连接会受到衰减因子的影响α一对节点之间的每条路径或连接都分配了一个权重,由下式确定α和节点之间的距离为α^d。

假设正在测量用户节点 John 的中心性,并且 α 设置为0.5(dampling factor)。分配给连接 John 与其直接邻居 Jane 和 Bob 的每个边的权重将是0.51. 由于 Jose 通过 Bob 间接连接到 John,分配给该连接(由两条边组成)的权重将为0.25. 同样,通过 Aziz 和 Jane 分配给 Agneta 和 John 之间的边的权重将是0.53 ,依此类推。

(二)PageRank 中心性

PageRank 算法根据传入关系的数量相应源节点的重要性来衡量图形中每个节点的重要性。粗略地说,潜在的假设是页面仅与链接到它的页面一样重要。

(1)数量假设:在网页模型图中,一个网页接收到的其他网页指向的入链(in-links)越多,说明该网页越重要。

(2)质量假设:当一个质量高的网页指向(out-links)一个网页,说明这个被指向的网页质量也高。

也可以这样说,在一次投票过程中,得票数多的人,其声望排名肯定相对较高;此外,被声望较高的人投票的人,说明其声望排名也较高。

简单网络的数学 PageRank 以百分比表示。页面 C 的 PageRank 比页面 E 高,即使指向 C 的链接更少;指向 C 的一个链接来自一个重要页面,因此具有很高的价值。如果从随机页面开始的网络冲浪者有 82.5% 的可能性从他们当前访问的页面中选择随机链接,并且有 17.5% 的可能性跳转到从整个网络中随机选择的页面,他们将到达页面 E 8.1% 的时间。(跳转到任意页面的 17.5% 的可能性对应于阻尼因子82.5%。)如果没有阻尼,所有网络冲浪者最终都会出现在页面 A、B 或 C 上,而所有其他页面的 PageRank 将为零。在存在阻尼的情况下,页面 A 有效地链接到网络中的所有页面,即使它没有自己的传出链接。

使用阻尼因子(它通常设置为 0.85)的原因:

  • 如果从一组页面到组外部没有关系,则该组被视为蜘蛛陷阱。

  • 当页面网络形成无限循环时,可能会发生排名下降。

  • 当页面没有传出关系时,就会发生死胡同。

改变阻尼系数有助于解决上述所有注意事项。它可以被解释为网络冲浪者有时跳转到随机页面的概率,因此不会陷入水槽。

(三)ArticleRank

ArticleRank 是 Page Rank 算法的一个变体,该算法测量节点的传递影响。

页面排名遵循以下假设:源自低度节点的关系比源自高度节点的关系具有更高的影响力。文章排名通过降低在每次迭代中发送给邻居的分数来降低低度节点的影响。

其他

以上是我们日常所用的中心性算法,可在大部分场景解决问题。以下是不常见的中心性算法,只作解释性说明。

(一)渗透中心性(Percolation centrality)

存在一系列中心性度量来确定复杂网络中单个节点的“重要性”。然而,这些措施以纯粹的拓扑术语量化了节点的重要性,并且节点的值不以任何方式依赖于节点的“状态”。无论网络动态如何,它都保持不变。即使对于加权介数度量也是如此。然而,就介数中心性或其他中心性度量而言,节点很可能位于中心,但在存在渗透的网络环境中可能不是“中心”。在许多情况下,“传染”的渗透发生在复杂的网络中。例如,病毒或细菌感染可以通过人们的社交网络传播,称为联系网络。通过考虑由公路、铁路或空中连接连接的城镇或人口中心网络,也可以在更高的抽象层次上考虑疾病的传播。计算机病毒可以通过计算机网络传播。关于商业报价和交易的谣言或新闻也可以通过人们的社交网络传播。在所有这些情况下,“传染病”会在复杂网络的链接上传播,在其传播时改变节点的“状态”,无论是可恢复的还是其他方式。例如,在流行病学情景中,随着感染的传播,个体从“易感”状态变为“感染”状态。在上述示例中各个节点可以采取的状态可以是二进制的(例如收到/未收到一条新闻),离散的(易感/感染/恢复),甚至是连续的(例如城镇中感染者的比例),随着传染病的传播。所有这些场景的共同特征是传染的传播导致网络中节点状态的变化。考虑到这一点,提出了渗透中心性(PC),它专门衡量节点在帮助通过网络的渗透方面的重要性。该措施由 Piraveenan 等人提出。

渗透中心性在给定时间为给定节点定义为通过该节点的“渗透路径”的比例。“渗透路径”是一对节点之间的最短路径,其中源节点被渗透(例如,被感染)。目标节点可以是渗透的或非渗透的,或者处于部分渗透的状态。

(二)跨集团中心性(Cross-clique centrality)

复杂图中单个节点的跨集团中心性决定了节点与不同集团]的连通性。具有高跨集团连接性的节点有助于信息或疾病在图中的传播。

(三)弗里曼中心化(Freeman centralization)

任何网络的中心化是衡量其最中心节点相对于所有其他节点的中心程度的衡量标准。

集中化措施然后(a)计算网络中最中心节点与所有其他节点之间的中心性差异总和;(b) 将该数量除以任何相同规模的网络中理论上最大的此类差异总和。

因此,每个中心性度量都可以有自己的中心化度量。

(四)基于差异的中心性度量(Dissimilarity based centrality measures)

为了在给定网络的节点排序中获得更好的结果,使用了相异性度量(特定于分类和数据挖掘理论)来丰富复杂网络中的中心性度量。

(五)阿尔法中心性(Alpha centrality)

在图论和社交网络分析中,阿尔法中心性是Katz中心性的替代名称。它是图中节点性的度量。它是对特征向量中心性的一种改编,此外节点还具有来自外部来源的重要性。

总结

本文对中心性算法进行了总结性整理,整体上中心性算法(Centrality Algorithms)从度中心性(Degree centrality)、接近中心性(Closeness centrality)、中介中心性(Betweenness centrality)、特征向量中心性(Eigenvector centrality)来进行归纳!!

以上是我个人在学习过程中的记录所学,希望对正在一起学习的小伙伴有所帮助!!!


参考链接:

度中心性(Degrree centrality)-介数中心性(Betweeness centrality)-特征向量中心性( Eigenvector centrality)-k-壳与k-核

谁是社会网络中最重要的人? - 知乎 (zhihu.com)

katz和eigenvector 中心性 - 知乎 (zhihu.com)

算法系列03] 浅谈PageRank算法 - 知乎 (zhihu.com)

网络中心性:多种中心性指标的定义与对比 | 集智百科|向量|特征值|拓扑_网易订阅 (163.com)

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

故事挺秃然

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值