[TOC]
一、目的
之前看过一些PageRank的知识和源码,自己也动手了一遍。今天看那本mining of massive dataset讲PageRank章节的时候,对PageRank又有了更多的理解,现在阐释如下。 PageRank算法研究网络之间的相互引用的问题,我认为可以看成一种“名声资源”的流动的过程。流动的这个过程其实就是马尔科夫过程,而我们要求的PageRank值就是达到平衡状态时的值。
二、马尔科夫过程平衡两个条件
- 强连通。 就是各个节点能够相互访问
- 没有终止点。
三、PageRank两个问题
这两个条件的不满足其实就造成了PageRank算法需要面对的两个问题。
3.1 Deadend 终止点这种界定这个必然不满足第二个条件,终止点的解决方法有两种 a) 心灵漂移 b) 将这种点去除,先将连通的整个网