全部笔记的汇总贴:统计学习方法读书笔记汇总贴
在实际应用中许多数据都以图(graph)的形式存在,比如,互联网、社交网络都可 以看作是一个图。图数据上的机器学习具有理论与应用上的重要意义。PageRank 算法是图的链接分析 (link analysis)的代表性算法,属于图数据上的无监督学习方法。
PageRank 算法的基本想法是在有向图上定义一个随机游走模型, 即 一阶马尔可夫链,描述随机游走者沿着有向图随机访问各个结点的行为。在一定条件下,极限情况访问每个结点的概率收敛到平稳分布,这时各个结点的平稳概率值就是其PageRank 值,表示结点的重要度。PageRank 是递归定义的,PageRank 的计算可以通过迭代算法进行。
一、PageRank的定义
PageRank 是定义在网页集合上的一个函数,它对每个网页给出一个正实数,表示网页的重要程度, 整体构成一个向量,PageRank 值越高,网页就越重要,在互联网搜索的排序中可能就被排在前面。
- 转移矩阵
可以手推例21.1
二、PageRank的计算
-
迭代算法