最近在准备机器学习和高级计算机网络,都碰到了pagerank算法,刚开始没太注意,查了一下资料,才发现这是拉里佩奇在斯坦福大学里的原创算法,果然厉害,不得不佩服,我同样在我大华科的图书馆珍藏书籍里见到了这个算法真是太有缘了呀,以下就谈一谈我自己的看法,如果有不对的话还请大神们见谅呀!!!
PageRank的核心思想有2点:
1.如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是pagerank值会相对较高;
2.如果一个pagerank值很高的网页链接到一个其他的网页,那么被链接到的网页的pagerank值会相应地因此而提高。
下面是一张来自WikiPedia的图,每个球代表一个网页,球的大小反应了网页的pagerank值的大小。指向网页B和网页E的链接很多,所以B和E的pagerank值较高,另外,虽然很少有网页指向C,但是最重要的网页B指向了C,所以C的pagerank值比E还要大。
1.问题背景
2.数学建模
我们可以理解网页连接矩阵$G$,马尔科夫过程("网上冲浪"),转移矩阵$A$,概率$p$为用户点击当前网页中的某个链接地址的概率(一般都为0.85)。