马尔科夫链
它假设了一个“随机冲浪者”模型,冲浪者从某张网页出发,根据 Web 图中的链接关系随机访问。在每个步骤中,冲浪者都会从当前网页的链出网页中,随机选取一张作为下一步访问的目标。
此外,PageRank 还引入了随机的跳转操作,这意味着冲浪者不是按 Web 图的拓扑结构走下去,只是随机挑选了一张网页进行跳转
PageRank 是基于马尔科夫链的。
PageRank
pi 表示第 i 张网页,Mi 是 pi 的入链接集合,pj 是 Mi 集合中的第 j 张网页。PR(pj) 表示网页 pj 的 PageRank 得分,L(pj) 表示网页 pj 的出链接数量,L(pj)1 就表示从网页 pj 跳转到 pi 的概率。α 是用户不进行随机跳转的概率,N 表示所有网页的数量.
简化 PageRank 公式
暂时不考虑随机跳转的情况,而只考虑用户按照网页间链接进行随机冲浪
点乘
所以,可拆分:
把的PageRank计算,分解为两个矩阵的点乘。一个矩阵是当前每张网页的 PageRank 得分,另一个矩阵就是邻接矩阵。所谓邻接矩阵,其实就是表示图结点相邻关系的矩阵。
基于行的归一化,指让所有元素加起来的和为 1。
考虑随机