【大数据】五、链接分析(PageRank、Topic-sensetive PageRank)

1. PageRank

词项作弊:

  1. 将词项重复几千次
  2. 将词的颜色和背景色设成一致

为了对抗词项作弊,谷歌提出两项创新:

  1. 使用了PageRank技术来模拟Web冲浪者的行为,较多冲浪者访问的网页的重要性被认为高于那些较少冲浪者访问的网页。
  2. 在判断网页内容时,不仅只考虑网页上出现的词项,还考虑指向该网页的链接中或周围所使用的词项.

PageRank 是一个函数,赋予每个网页一个实数值。网页的PageRank越高,那么它就越重要。

1.1 普通 PageRank 算法例题

计算步骤

  1. 写出转移矩阵,初始化 v = e / n
  2. 不断迭代 v’ = Mv
    在这里插入图片描述
2. 避免终止节点

如果图中存在终止节点,不断迭代最后计算出来的 v = 0 向量。

避免终止节点的办法

  1. 不断将终止节点从图上剔除,最后得到一个强联通图;
  2. 随机修改冲浪的过程。
2.1 消除终止节点

在第一种方法中,如何计算删除掉的点(如C)的 PageRank?
在这里插入图片描述
A, B, D迭代出来的PageRan分别是2/9、4/9、3/9。那么 C 的 PageRank = 1/3 × 2/9 + 1/2 × 3/9 = 13/54

2.2 采集器陷阱及“抽税”法(自环与参数β)

采集器陷阱就是自环的意思。在计算 PageRank 的时候还需要加一个参数 β(税),避免陷入陷阱出不来。

PageRank 的迭代公式为:
在这里插入图片描述

  • β 通常取值在 0.8 到 0.9 之间
  • e 是一个所有分量都为 1 维数为 n 的向量
  • n 是节点数量

例题
在这里插入图片描述

3. 面向主题的 PageRank

将主题内容加入到公式中,所以公式有一些微小的变化。
在这里插入图片描述

  • e_s 是一个向量,如果其分量对应的网页主题属于 S,则分量置为 1,否则为 0
  • |S| 是集合 S 的大小
  • 其他参数定义和之前一样

例题
在这里插入图片描述

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值