推荐算法：基于图的算法：pagerank

最新推荐文章于 2024-06-25 18:52:12 发布

LandscapeMi

最新推荐文章于 2024-06-25 18:52:12 发布

阅读量4.4k

点赞数

分类专栏：推荐算法

本文链接：https://blog.csdn.net/mijian1207mijian/article/details/51679886

版权

推荐算法专栏收录该内容

25 篇文章 0 订阅

订阅专栏

基本模型

*随机游走模型

针对浏览网页的用户行为建立的抽象模型
直接跳转：打开浏览器，输入网址，然后根据链接跳转

这里写图片描述

转移概率矩阵
则可以组织这样一个N维矩阵：其中i行j列的值表示用户从页面j转到页面i的概率

$M = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 0 1 / 3 1 / 3 1 / 3 1 / 2 0 1 / 2 0 0001 1 / 2 1 / 2 00 [A A, B A, C A, D A] [A B, B B, C B, D B] [A C, B C, C C, D C] [A D, B D, C D, D D] ⎤ ⎦ ⎥ ⎥ ⎥ ⎥$ $M= \left[ \begin{matrix} 0 & 1/2 & 0 & 1/2 & [AA,BA,CA,DA]\\ 1/3 & 0 & 0 & 1/2 & [AB,BB,CB,DB]\\ 1/3 & 1/2 & 0 & 0 & [AC,BC,CC,DC]\\ 1/3 & 0 & 1 & 0 & [AD,BD,CD,DD] \end{matrix} \right]$
远程跳转：以1/4的概括进入任意页面(rank值)

$v = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 1 / 4 1 / 4 1 / 4 1 / 4 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥$ $v= \left[ \begin{matrix} 1/4\\ 1/4\\ 1/4\\ 1/4\\ \end{matrix} \right]$
M的第一行是各页面到A页面的概率
v的列是ABCD当前的rank值
Mv是ABCD的新的rank

M v = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 1 / 4 5 / 24 5 / 24 1 / 3 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$Mv= \left[ \begin{matrix} 1/4\\ 5/24\\ 5/24\\ 1/3\\ \end{matrix} \right]$

然后用M再乘以这个新的rank向量，又会产生一个更新的rank向量。迭代这个过程，可以证明v最终会收敛，即v约等于Mv，此时计算停止。最终的v就是各个页面的pagerank值。例如上面的向量经过几步迭代后，大约收敛在（1/4, 1/4, 1/5, 1/4），这就是A、B、C、D最后的pagerank。

* pagerank

http://blog.jobbole.com/71431/
http://blog.codinglabs.org/articles/intro-to-pagerank.html
http://ibillxia.github.io/blog/2012/07/08/Google-PageRank-Algorithm/

数量假说：在web图模型中，如果一个页面节点接收到其他网页指向的入链数量越多，那么这个页面越重要
质量假说：指向A的入链质量不同，质量高的页面会通过链接转向其他页面传递更高的权重。所以越是质量高的页面指向A，A越重要

pagerank的计算

$M^iv$
本质是马尔科夫过程，如果收敛需要满足：图是强连通的，即从任意网页可以到达其他任意网页；

pagerank的问题

避免终止点
互联网上的网页不满足强连通的特性，因为有一些网页不指向任何网页，如果按照上面的计算，上网者到达这样的网页后便走投无路、四顾茫然，导致前面累计得到的转移概率被清零，这样下去，最终的得到的概率分布向量所有元素几乎都为0。假设我们把上面图中C到A的链接丢掉，C变成了一个终止点
避免陷阱问题
即有些网页不存在指向其他网页的链接，但存在指向自己的链接。