数据挖掘(Data Mining):数据,图和文本

本文深入探讨了图中节点的度分布,介绍了随机图G(n,p)的概念,以及在社交网络分析中的应用。同时,讲解了中介中心性和聚类系数这两个关键的网络特性,它们在衡量节点影响力和网络结构紧密度方面的重要性。此外,还提及了文本处理的基本步骤,如分词、停用词移除和词干化,并提到了TF-IDF在信息检索中的作用。
摘要由CSDN通过智能技术生成

图中节点特征 

首先对于图中节点来说,我们以每个点所连接的边的个数定义它的degree(度), p(degree=k) = Nk/N 表示随机选取一个点,degree为k的概率。

n0n1n2n3n4n5n6n7n8
degree423122121

随机图(Random Graphs)

随机图是图家族中的一个概率分布,通常用G(n,p)表示,n表示节点的个数,p表示对于每一个二元组,连接的概率为p

中介中心性(Betweenness Centrality)

对于点的betweenness我们在这篇文章中提到了,对于边的betweenness我们可以理解为Node m, 到Node n的最短路径所需要经过edge(i,j) 的次数占m,n最短路径总次数的比重,betweenness~[0,1]。

这里给一个计算例子,计算A的betweenness(vertices 4,6) 

聚类系数(Clustering coefficient)

Ego-network-based definition: 顶点的聚类系数是其相邻边之间的百分比。

Triangle: 顶点的聚类系数是其该顶点所在的闭合三元组和以其为中心的所有三元组的比值

这两者在计算顶点聚类系数上没有区别,但是在计算整个网络即图的聚类系数上差别很大。对于Ego-network-based 方法,整个图的聚类系数为所有点的聚类系数的均值。而基于Triangle算法则是【所有的闭合三元组的个数*3/所有不闭合三元组的个数】。

Text

Tokenization

将文本句段变成可以用来进行计算的结构化数据。

Stop word removal

除去停用词,一般和语言本身关系比较大。

Stemming(词干化)

减少语法的多样化

TF*IDF(词频*逆文本频率)

TF: 词t出现文档d的次数

IDF: log(N/Nt),N表示总的文档数量,Nt表示包含t的文档的数量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值