1. PageRank
词项作弊:
- 将词项重复几千次
- 将词的颜色和背景色设成一致
为了对抗词项作弊,谷歌提出两项创新:
- 使用了PageRank技术来模拟Web冲浪者的行为,较多冲浪者访问的网页的重要性被认为高于那些较少冲浪者访问的网页。
- 在判断网页内容时,不仅只考虑网页上出现的词项,还考虑指向该网页的链接中或周围所使用的词项.
PageRank 是一个函数,赋予每个网页一个实数值。网页的PageRank越高,那么它就越重要。
1.1 普通 PageRank 算法例题
计算步骤
- 写出转移矩阵,初始化 v = e / n
- 不断迭代 v’ = Mv
2. 避免终止节点
如果图中存在终止节点,不断迭代最后计算出来的 v = 0 向量。
避免终止节点的办法
- 不断将终止节点从图上剔除,最后得到一个强联通图;
- 随机修改冲浪的过程。
2.1 消除终止节点
在第一种方法中,如何计算删除掉的点(如C)的 PageRank?
A, B, D迭代出来的PageRan分别是2/9、4/9、3/9。那么 C 的 PageRank = 1/3 × 2/9 + 1/2 × 3/9 = 13/54
2.2 采集器陷阱及“抽税”法(自环与参数β)
采集器陷阱就是自环的意思。在计算 PageRank 的时候还需要加一个参数 β(税),避免陷入陷阱出不来。
PageRank 的迭代公式为:
- β 通常取值在 0.8 到 0.9 之间
- e 是一个所有分量都为 1 维数为 n 的向量
- n 是节点数量
例题
3. 面向主题的 PageRank
将主题内容加入到公式中,所以公式有一些微小的变化。
- e_s 是一个向量,如果其分量对应的网页主题属于 S,则分量置为 1,否则为 0
- |S| 是集合 S 的大小
- 其他参数定义和之前一样
例题