本文只介绍离散时间的马尔可夫链,但这对于理解接下来要讲的PageRank算法、HITS算法和TextRank算法足够了。
概念
马尔可夫链是一个满足马尔可夫性质的状态序列。
所谓状态,就是一个东西在某一个时间所处的状态,比如我现在的状态时写博客,你现在的状态的看博客。一个东西所有的状态的集合S,称为状态空间。假设总共有m种状态,可以如下表示状态空间:
S={1, … , m}, 其中m为整数。
所谓马尔可夫性质,是指东西接下来会处于什么状态,只与它的上一个状态有关。用Xn表示东西在时刻n所处的状态,马尔可夫性质便可由下面的公式阐述:
P(Xn+1 = j|Xn = i, Xn-1 = in-1, …, X0 = i0) = P(Xn+1 = j|Xn = i)
其中,i0, in-1, i, j
∈
S
我们把P(Xn+1 = j|Xn = i) 记为Pij, 即
Pij = P(Xn+1 = j|Xn = i)
Pij称为转移概率。
所有状态间的转移概率构成一个m x m的转移概率矩阵:
其中,矩阵的每一行之和为1,且非负。
n步转移概率
现在东西处在状态i,n步之后,东西处在状态j的概率定义为:
r ij(n) = P(X n = j | X 0 = i)
这个概率成为n步转移概率。
n步转移概率可以通过迭代公式求得:
rij(n) =
∑mk=1rkj(n)Pkj
其中, rij(1) = Pij
上面的公式也可以表示为矩阵形式:
使
则有:
pk = ATpk-1,其中,k > 1
如果矩阵(AT)k(A转置的k次方)的所有元素都大于0,当k
⟶∞
时, pk收敛于唯一的p,即:
p=ATp
p就是AT特征值为1时的特征向量。
参考资料:
《概率导论》第2版,(美)伯特瑟卡斯,(美)齐齐克利斯 著,郑忠国,童行伟 译
《Web数据挖掘》第2版,Bing Liu 著, 俞勇 译
《线性代数及其应用》第3版,(美)莱(Lay,D.C.) 著,刘深泉 等译