人工智能教程 - 专业选修课程4.3.11 - 复杂结构数据挖掘 5.PageRank技术

PageRank技术通过模拟web冲浪者行为对抗词项作弊,考虑网页链接与内容判断重要性。PageRank是网页排名函数,高分表示重要性。此外,还涉及TrustRank、HITS等主题相关排序方法,以及解决PageRank问题的策略,如特定主题PageRank和中心权限模型。
摘要由CSDN通过智能技术生成

PageRank技术

使用PageRank技术可以用来对抗词项作弊(term spam)。
问题:词项作弊。是一种欺骗搜索引擎让其相信一个本来不相关的页面,使其排名靠前的技术。
解决方案:使用PageRank技术来模拟web冲浪者的行为,这些冲浪者从随机页面出发,每次从当前页面随机选择出链前行,该过程可以迭代多次。最终,这些冲浪者会在页面上汇合。较多冲浪者访问的网页重要性被认为高于那些高于那些较少冲浪者访问的网页。
在判断网页内容时,不仅考虑网页上出现的词项,还考虑指向给网页的链接中或周围所使用的词项。

PageRank技术的动机

  1. web用户会用脚投票
  2. 随机冲浪者 random surfer的行为表明web用户可能访问那些网页。用户更可能访问有用而不是无用的网页。类似于随机游走

PageRank定义

PageRank是一个函数,它对web中(或者至少是抓取并发现其中链接关系的一部分网页)的每个网页赋予一个实数值。它的意图在于,网页的PageRank越高,那么它就越“重要”。

TrustRan
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值