在之前的文章(《量化投资的利器:隐马尔可夫模型(一)》)里,我们比较“文学地”介绍了隐马尔可夫模型(HMM)的基本思想。而这篇文章将深入地从数学上来讨论HMM模型的细节。
一、马尔可夫链
首先讨论在处理序列数据时最常用的数学工具—马尔可夫链1(Markov chain或者Markov process)。
马尔可夫链描述的是一个随机过程(stochastic process),比如《量化投资的利器:隐马尔可夫模型(一)》中的天气情况。更一般地,假设 y 1 , y 2 , . . . , y n y_1, y_2, ..., y_n y1,y2,...,yn是按顺序排列的随机变量。这些随机变量是相互关联的,也就是说当前状态和之前的状态有关系,具体的如公式(1)所示:
(1) P ( y i ∣ y i − 1 , y i − 2 , . . . , y 0 ) = P ( y i ∣ y i − 1 ) P(y_i | y_{i - 1}, y_{i - 2}, ..., y_0) = P(y_i | y_{i - 1}) \tag{1} P(yi∣yi−1,yi−2,...,y0)=P(yi∣yi−1)(1)
上面的公式可形象地理解为: y i {y_i} yi是一个很“健忘”的随机过程,它的当前状态只跟前一个状态相关。针对马尔可夫链,数学上还可以证明:
(2) P ( y 0 , . . . , y i − 1 , y i + 1 , . . . , y n ∣ y i ) = P ( y 0 , . . . , y i − 1