Page Rank要点:
1)将这个web看做一张大网(有向图),一个网页代表一个节点, 有向边表示一个网页到另一个网页的链接;
2)一个网页的重要性由链接到该网页的数量和质量(重要性)决定;一个网页分给另一网页的重要性多少为 该网页的重要性除以该网页的链接总数,
3)邻接矩阵--》推移概率矩阵(前一个矩阵转置,再对列归一化)--》求最大特征值对应的特征向量,再对该向量归一化,得到的向量就表示网页的重要性
4)改进:用户浏览一个网页时,下一步可能会浏览改网页的链接,也可能会从这个网页跳出去浏览其他内容(上述解释也可以认为是 含有多个独立环,具体见下【1】),所以推移概率矩阵变为 M'= c*M +(1-c)/N,M为原来的推移矩阵,c为常数,一般为0.85,N为网页的总数量;
ps1:Page Rank技术只是Google的网页排名技术的一个重要组成,还有其他很多的改进和方法;新问题不断的出现,技术也在不断的进步,永久的不变是变化
ps2:Personalized Page Rank(个性化的Page Rank),加入用户个性化的成分和要求,满足其个性化需求,具体见下【3】
相关资料:
【1】早期介绍pagerank的文章,非常详细 http://www.kreny.com/pagerank_cn.htm
【2】Google黑板报 http://www.google.com.hk/ggblog/googlechinablog/2006/02/page-rank-google_1386.html
【2】个性化Page Rank http://hi.baidu.com/fgvscvi/blog/item/c2e7d42f35067b295243c14d.html