单文档:TF= 出现次数比总次数
多文档:IDF= log(总文档数比出现词条的文档数)出现次数越少,识别性越高
综合: TF-IDF=上面两个相乘(当词项只在少数几篇文档中多次出现时,权值最大,因为此时该词条能够对文档提供最强的区分能力;当词项在某篇文档中出现次数很少,或者在很多文档中出现,权重取值次之;当词项在所有文档中都出现时,权值最小。)
PageRank算法的基本计算过程如下:
1. 初始化:给每个网页分配一个初始得分(通常设置为1)。
2. 计算权重:根据网页之间链接的关系,计算每个网页的权重。权重的计算方式通常如下:对于一个网页A,其所有链入链接的PageRank得分总和除以A的所有链出链接数量。因此,权重反映了网页的重要性程度。
3. 更新得分:将每个网页的权重与其原来的得分相乘,然后更新得分。重复此步骤多次,直到网页得分不再变化为止。
4. 输出结果:输出每个网页的最终得分,即PageRank得分。
需要注意的是,实际实现中可能需要进行一些优化处理,例如引入阻尼因子等,以便让算法更加稳定并避免出现无限循环等情况。