基于图的评级算法基础——马尔可夫链

本文只介绍离散时间的马尔可夫链,但这对于理解接下来要讲的PageRank算法、HITS算法和TextRank算法足够了。

概念
马尔可夫链是一个满足马尔可夫性质的状态序列。

所谓状态,就是一个东西在某一个时间所处的状态,比如我现在的状态时写博客,你现在的状态的看博客。一个东西所有的状态的集合S,称为状态空间。假设总共有m种状态,可以如下表示状态空间:
S={1, … , m}, 其中m为整数。

所谓马尔可夫性质,是指东西接下来会处于什么状态,只与它的上一个状态有关。用Xn表示东西在时刻n所处的状态,马尔可夫性质便可由下面的公式阐述:
P(Xn+1 = j|Xn = i, Xn-1 = in-1, …, X0 = i0) = P(Xn+1 = j|Xn = i)
其中,i0, in-1, i, j S
我们把P(Xn+1 = j|Xn = i) 记为Pij, 即
Pij = P(Xn+1 = j|Xn = i)
Pij称为转移概率。
所有状态间的转移概率构成一个m x m的转移概率矩阵:

P11P21Pm1P12P22Pm2P1mP23Pmm

其中,矩阵的每一行之和为1,且非负。
n步转移概率
现在东西处在状态i,n步之后,东西处在状态j的概率定义为:
r ij(n) = P(X n = j | X 0 = i)
这个概率成为n步转移概率。

n步转移概率可以通过迭代公式求得:
rij(n) = mk=1rkj(n)Pkj
其中, rij(1) = Pij

上面的公式也可以表示为矩阵形式:

P1P2Pmn=P11P21Pm1P12P22Pm2P1mP23PmmTP1P2Pmn1

使

pk=P1P2Pmnpjrij(n)

A=P11P21Pm1P12P22Pm2P1mP23Pmm

则有:
pk = ATpk-1,其中,k > 1

如果矩阵(AT)k(A转置的k次方)的所有元素都大于0,当k 时, pk收敛于唯一的p,即:
p=ATp
p就是AT特征值为1时的特征向量。

参考资料:
《概率导论》第2版,(美)伯特瑟卡斯,(美)齐齐克利斯 著,郑忠国,童行伟 译
《Web数据挖掘》第2版,Bing Liu 著, 俞勇 译
《线性代数及其应用》第3版,(美)莱(Lay,D.C.) 著,刘深泉 等译

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值