链路分析（Link analysis）

最新推荐文章于 2022-12-26 23:44:46 发布

爱吃香菜和葱

最新推荐文章于 2022-12-26 23:44:46 发布

阅读量2.3k

点赞数

分类专栏：数据挖掘文章标签：链路分析大规模图数据挖掘

本文链接：https://blog.csdn.net/qq_41648804/article/details/103349067

版权

随机游走（random walk）

Flow Formulation

当某个网页的输入链接越多时，说明该网页越重要（Page is more important if it has more out-links）
flow_equation
首先定义某一页的rank:
$r_{j}=\sum_{i \rightarrow j} \frac{r_{i}}{\mathrm{d}_{i}}$
其中： $d_{i}$ 为结点 $i$ 的出度和
对于上图而言，其方程为：
$\begin{array}{l}{\mathbf{r}_{\mathbf{y}}=\mathbf{r}_{\mathbf{y}} / 2+\mathbf{r}_{\mathbf{a}} / \mathbf{2}} \\ {\mathbf{r}_{\mathbf{a}}=\mathbf{r}_{\mathbf{y}} / \mathbf{2}+\mathbf{r}_{\mathbf{m}}} \\ {\mathbf{r}_{\mathbf{m}}=\mathbf{r}_{\mathbf{a}} / 2}\end{array}$
为了使得方程有解，还需加上如下条件：
$r_{y}+r_{a}+r_{m}=1$
但是上述求解方式对于大规模图而言，求解上述方程的时间复杂度会较高

Matrix Formulation

定义矩阵 $M$ ，假设页面 $i$ 有 $d_{i}$ 个输出 $l i n k$ ，则如果页面 $i$ 指向页面 $j$ ，则 $M_{ji}=\frac{1}{d_{i}}$ ；否则， $M_{ji}=0$ 。向量 $r$ 表示每个页面的分数，且满足 $\sum_{i}r_{i}=1$ 。
$\boldsymbol{r}=\boldsymbol{M} \cdot \boldsymbol{r}$
通过上式，不难发现， $\boldsymbol{r}$ 为矩阵 $\boldsymbol{M}$ 的特征向量，且其特征值为 $1$ ，且是其最大特征根，因为 $\boldsymbol{M} \boldsymbol{r}\leq 1$ ???有疑问为何就是最大的了
使用迭代法（power iteration）进行求解，求解过程如下：

Suppose there are N web pages
	Initialize: r(0) = [1/N,….,1/N]T
	Iterate: r(t+1) = M ∙ r(t)
	Stop when |r(t+1) – r(t)|1 < μ

证明：迭代法的合理性
假设矩阵 $\boldsymbol{M}$ 有 $n$ 个特征向量 $x_{1}$ $x_{2}$ … $x_{n}$ ，并且其对应的特征根为 $\lambda_{1}$ $\lambda_{2}$ … $\lambda_{n}$ 且 $\lambda_{1}>\lambda_{2}>\cdots>\lambda_{n}$ ，由于特征向量之间相互独立，故可以将其看作一组基础解系，则 $r^{(0)}=c_{1} x_{1}+c_{2} x_{2}+\cdots+c_{n} x_{n}$
$\begin{aligned} \boldsymbol{M} \boldsymbol{r}^{(0)} &=\boldsymbol{M}\left(\boldsymbol{c}_{1} \boldsymbol{x}_{1}+\boldsymbol{c}_{2} \boldsymbol{x}_{2}+\cdots+\boldsymbol{c}_{\boldsymbol{n}} \boldsymbol{x}_{\boldsymbol{n}}\right) \\ &=c_{1}\left(M x_{1}\right)+c_{2}\left(M x_{2}\right)+\cdots+c_{n}\left(M x_{n}\right) \\ &=c_{1}\left(\lambda_{1} x_{1}\right)+c_{2}\left(\lambda_{2} x_{2}\right)+\cdots+c_{n}\left(\lambda_{n} x_{n}\right) \end{aligned}$

最低0.47元/天解锁文章

爱吃香菜和葱

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
链路分析（Link analysis）

随机游走（random walk）Flow Formulation当某个网页的输入链接越多时，说明该网页越重要（Page is more important if it has more out-links）首先定义某一页的rank:rj=∑i→jridir_{j}=\sum_{i \rightarrow j} \frac{r_{i}}{\mathrm{d}_{i}}rj=i→j∑...
复制链接

扫一扫