1 词项作弊:在web网页中估计引入那些与网页页面无关的用于误导搜索引擎的词项。
2 对付词项作弊:Pagerank 。相信其他网页对当前网页的评价。
3 Pagerank:是递归方程“重要网页指向的网页也重要”的解。
4 Web的转移矩阵:一个或者多个链接从j指向i,那么第i行第j列元素值为1/k
5 强连通图pagerank计算:对强连通图,pagerank是转移矩阵的主特征向量。pagerank可从任意非零向量开始,反复用转移矩阵乘以当前向量,迭代约50次,估计出pagerank值。
6 随机冲浪模型:冲浪者从任意界面开始,每下一步随机访问当前页面所连接的页面。冲浪者在给定网页上停留的页面的极限概率就是网页的pagerank值。
7 终止点:没有出链的Web网页。
8 采集器陷阱:一系列节点,可能相互连接,但是不会连接集合外的点。
9 抽税机制:抑制采集器陷阱效果。成分分解加上分量。
10 转移矩阵高效表示:稀疏矩阵中提取非零元素表示。
11 极大规模矩阵向量乘法:web网络图结构,矩阵分块K*k方块,向量分k段。
12 面向主题的pagerank:查询用户对某个主题感兴趣,而对其主题相关的网页赋予更高pagerank。
13 链接垃圾 垃圾农场包括目标网页,支持网页,目标网页指向所有支持网页, 支持网页只指向目标网页。
14 TrustRank:抑制链接作弊算法,面向主题的pagerank。其中的远程跳转集合由一些可信的网页组成。
15 垃圾质量:trustrank值较pagerank值小很多的网页是垃圾农场的一部分。
16 导航页和权威页:HITS 权威页是包含价值信息的网页,导航页是包含指向价值信息的网页。HITS递归算法“导航页会指向很多权威页,权威页被很多导航页指向”。不需引入抽税机制。