链接分析
简单PageRank,节点投票,只考虑入度对自己的贡献
为应付爬虫陷阱和终节点,引入一个随机跳转的概率β
大规模PageRank的计算方法,存储上压缩,分批处理,计算加速:
1. M矩阵的稀疏特点,可以只存储非零元素
2. 将M矩阵存放在磁盘中,运算时分批加载矩阵中的向量
3. 当连r[old]和r[new]这种状态向量也无法存储在内存时,就要把r[old]和r[new]也存在磁盘,运算时分块加载r[old]中的数据和要用到的M中的部分向量,去更新r[new]中的值。Block_base Update和Block_stripe Upadate
4. 矩阵快速幂加速
PPR,个性化PR,对随机跳转集做了限制
SimRank,还是在随机跳转集上做手脚,用相似度作为随机跳转到某节点的概率。
HITS,Hubs & Authorities,综合考虑入度和出度,来回投票互增长。
TrustRank对战WebSpam
WebSpam的两种常用伎俩:
1. TermSpam
a) 在页面中用背景色插入大量某主题的关键字
b) 将现有的最优搜索结果的内容用背景色插入到自己的页面中
2. SpamFarm,指向目标Page的不光是自己的‘托’,还从一些正经网页指向,比如博客中的文章、评论等等,并由于PageRank的机制,增加自己‘托’网页的数量将提高目标也的整体评分。