数据挖掘笔记:Review_2

链接分析

简单PageRank,节点投票,只考虑入度对自己的贡献

为应付爬虫陷阱和终节点,引入一个随机跳转的概率β

大规模PageRank的计算方法,存储上压缩,分批处理,计算加速:

1.   M矩阵的稀疏特点,可以只存储非零元素

2.   将M矩阵存放在磁盘中,运算时分批加载矩阵中的向量

3.   当连r[old]和r[new]这种状态向量也无法存储在内存时,就要把r[old]和r[new]也存在磁盘,运算时分块加载r[old]中的数据和要用到的M中的部分向量,去更新r[new]中的值。Block_base Update和Block_stripe Upadate

4.   矩阵快速幂加速

PPR,个性化PR,对随机跳转集做了限制

SimRank,还是在随机跳转集上做手脚,用相似度作为随机跳转到某节点的概率。

HITS,Hubs & Authorities,综合考虑入度和出度,来回投票互增长。






TrustRank对战WebSpam

WebSpam的两种常用伎俩:

1.       TermSpam

a)       在页面中用背景色插入大量某主题的关键字

b)       将现有的最优搜索结果的内容用背景色插入到自己的页面中

2.       SpamFarm,指向目标Page的不光是自己的‘托’,还从一些正经网页指向,比如博客中的文章、评论等等,并由于PageRank的机制,增加自己‘托’网页的数量将提高目标也的整体评分。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值