引言:机器是看不懂图的节点、连接之类的东西,所以将这些东西以矩阵和向量的形式进行改写,读入到模型中。
节点的属性特征:例如一个节点可以包括年龄、性别、收入等这些都可以称为属性特征。
节点的连接特征:表述的是一个节点和整个图的其他节点之间的关系。
半监督学习(Semi-Supervised Learning,简称SSL):是一种机器学习范式,它介于监督学习和无监督学习之间。在监督学习中,模型的训练依赖于大量的标记数据,而在无监督学习中,数据通常没有标记。半监督学习则结合了这两者的特点,使用少量的标记数据和大量的未标记数据来进行学习。
图中给出少量绿色和红色节点然后预测整张图结构的其他未知节点情况。
下图根据NodeDegree(节点度数)来判断点的情况,A和G都是度数为1,但是A是院士的关门弟子而G是一个小老板的手下的土博,两者是明显不对等的,所以说两者的质量是完全不同的。所以只看NodeDegree是不够全面的。
那么怎样避免上面只看数量(度数)不看质量的情况呢?提出了一下方案。
Eigenvector centrality(特征向量中心性):是一种衡量网络中节点重要性的方法。它的核心思想是:如果一个节点连接到许多重要的节点,那么这个节点本身也变得更加重要。这种方法不仅考虑了节点的连接数(即度),还考虑了这些连接的节点的重要性。因此,Eigenvector centrality可以捕捉到网络中的间接连接和节点的全局影响力。
理解为:若一个节点周围的节点很重要则这个节点很重要。
介数中心性(Betweenness Centrality):是网络分析中一个重要的概念,用于衡量网络中节点的重要性。它基于一个节点在所有节点对之间的最短路径上出现的次数来定义。如果一个节点在许多最短路径上充当“桥梁”或“中介”,那么这个节点就具有高介数中心性,这表明它在网络中的信息流通或资源流动中扮演着关键角色。
理解为:一个节点是否处在交通咽喉和必经之地(例如武汉的位置)。
接近中心性(Closeness Centrality):是网络分析中的另一个重要概念,用于衡量网络中节点的重要性。与介数中心性不同,接近中心性关注的是一个节点到网络中所有其他节点的平均距离。一个节点的接近中心性越高,意味着它到其他所有节点的平均距离越短,信息传播到整个网络的速度越快。
理解为:一个节点去其他节点的远近程度。
聚类系数(Clustering Coefficient):是网络分析中用来衡量节点周围局部网络密度的一个指标。它反映了一个节点的邻居节点之间相互连接的程度,即节点的邻居节点形成子图的连通程度。聚类系数可以帮助我们理解网络中的集群或社区结构,即网络中的节点是否倾向于与彼此紧密连接形成群组。
分子是节点V的周围节点之间的相连个数(节点V周围的三角形个数)。分母是V相邻节点的对数。
也叫做ego-network。
Graphlets即有根连通导出异构子图(Rooted connected induced non-isomorphic subgraphs)
下图中的【2,1,0,2】的由来:例如第一个2是将图中a点放入u点可以匹配的子图个数其他同理。
本节所讲内容回顾: