图中节点特征
首先对于图中节点来说,我们以每个点所连接的边的个数定义它的degree(度), p(degree=k) = Nk/N 表示随机选取一个点,degree为k的概率。
n0 | n1 | n2 | n3 | n4 | n5 | n6 | n7 | n8 | |
degree | 4 | 2 | 3 | 1 | 2 | 2 | 1 | 2 | 1 |
随机图(Random Graphs)
随机图是图家族中的一个概率分布,通常用G(n,p)表示,n表示节点的个数,p表示对于每一个二元组,连接的概率为p
中介中心性(Betweenness Centrality)
对于点的betweenness我们在这篇文章中提到了,对于边的betweenness我们可以理解为Node m, 到Node n的最短路径所需要经过edge(i,j) 的次数占m,n最短路径总次数的比重,betweenness~[0,1]。
这里给一个计算例子,计算A的betweenness(vertices 4,6)
聚类系数(Clustering coefficient)
Ego-network-based definition: 顶点的聚类系数是其相邻边之间的百分比。
Triangle: 顶点的聚类系数是其该顶点所在的闭合三元组和以其为中心的所有三元组的比值
这两者在计算顶点聚类系数上没有区别,但是在计算整个网络即图的聚类系数上差别很大。对于Ego-network-based 方法,整个图的聚类系数为所有点的聚类系数的均值。而基于Triangle算法则是【所有的闭合三元组的个数*3/所有不闭合三元组的个数】。
Text
Tokenization
将文本句段变成可以用来进行计算的结构化数据。
Stop word removal
除去停用词,一般和语言本身关系比较大。
Stemming(词干化)
减少语法的多样化
TF*IDF(词频*逆文本频率)
TF: 词t出现文档d的次数
IDF: log(N/Nt),N表示总的文档数量,Nt表示包含t的文档的数量