动态图模型的共同特征
关于贝叶斯网络的经典实例:隐马尔科夫模型,卡尔曼滤波器,粒子滤波器;这三个有向图具有一个统一的名称:动态图模型,并且它们具有通用的概率图表达形式:
从中可以明显发现,在上面的概率图中有几个重要的元素:
- 第一:在这个模型中,有观测变量 X X X,隐藏变量 Z Z Z(代表隐含状态);
- 第二:模型中具有时间信息;
隐马尔科夫模型,卡尔曼滤波器,粒子滤波器这三种模型均具备以下两个共同的假设:
- 隐变量序列 Z Z Z的齐次马尔科夫假设:即 Z t + 1 Z_{t+1} Zt+1的取值只与 Z t Z_{t} Zt有关,而与 { Z 1 , Z 2 , . . . , Z t − 1 } \left\{Z_{1},Z_{2},...,Z_{t-1}\right\} {Z1,Z2,...,Zt−1}无关: p ( Z t + 1 ∣ Z t ) = p ( Z t + 1 ∣ Z t , Z t − 1 , . . . , Z 1 ) p(Z_{t+1}|Z_{t})=p(Z_{t+1}|Z_{t},Z_{t-1},...,Z_{1}) p(Zt+1∣Zt)=p(Zt+1∣Zt,Zt−1,...,Z1)
- 观测独立性假设:对于同一组观测变量 X t X_{t} Xt和隐变量 Z t Z_{t} Zt, X t X_{t} Xt的取值只与 Z t Z_{t} Zt有关,而与其他的观测变量,隐变量取值无关: p ( X t ∣ Z t ) = p ( X t ∣ Z 1 , Z 2 , . . . , Z T , X 1 , . . . , X t − 1 , X t + 1 , . . . , X T ) p(X_{t}|Z_{t})=p(X_{t}|Z_{1},Z_{2},...,Z_{T},X_{1},...,X_{t-1},X_{t+1},...,X_{T}) p(Xt∣Zt)=p(Xt∣Z1,Z2,...,ZT,X1,...,Xt−1,Xt+1,...,XT)
模型间的区别
上面两个假设是三个有向图模型的共同特征,它们的区别在于观测变量 X X X和隐藏变量 Z Z Z各自的分布形式,以及变量之间的关系。
对于隐马尔科夫模型,要求隐变量为离散型随机变量,观测变量可以是离散型的也可以是连续型的,相邻隐变量 Z t Z_{t} Zt和 Z t − 1 Z_{t-1} Zt−1之间的转移过程,以及隐变量 Z t Z_{t} Zt到观测变量 X t X_{t} Xt的输出过程,都遵循状态转移矩阵中的概率约束。
对于卡尔曼滤波器而言,隐变量和观测变量均要求为连续型随机变量,并且都符合高斯分布, Z t Z_{t} Zt和 Z t − 1 Z_{t-1} Zt−1之间的关系以及隐变量 Z t Z_{t} Zt到观测变量 X t X_{t} Xt的关系都是符合带有高斯噪声的线性关系。
粒子滤波器相比卡尔曼滤波器更为一般,隐变量 Z Z Z与观测变量 X X X均不要求服从高斯分布,它们之间也不要求符合线性关系。
动态图模型的重点问题
在应用动态图模型时,一般需要解决两个问题(学习与推理);
对于学习问题(learning):在隐马尔科夫模型中,可以通过观测值 X X X,利用EM算法迭代计算模型的参数;
对于推理问题(inference):本质上都是已知一组观测变量 X X X,对感兴趣的后验概率进行估计,而推断又分为很多小类:
1.在隐马尔科夫模型中,人们关心状态解码,状态解码是已知一组观测变量 x 1 , x 2 , . . . , x t x_{1},x_{2},...,x_{t} x1,x2,...,xt,推断最可能对应的一组隐状态 z 1 , z 2 , . . . , z t z_{1},z_{2},...,z_{t} z1,z2,...,zt,实际就是估计后验概率 p ( z 1 , z 2 , . . . , z t ∣ x 1 , x 2 , . . . , x t ) p(z_{1},z_{2},...,z_{t}|x_{1},x_{2},...,x_{t}) p(z1,z2,...,zt∣x1,x2,...,xt);
2.对于卡尔曼滤波器和粒子滤波器,又分为三类:滤波,平滑,预测;
对于滤波(filtering)计算的后验概率形式为: p ( z t ∣ x 1 , x 2 , . . . , x t ) p(z_{t}|x_{1},x_{2},...,x_{t}) p(zt∣x1,x2,...,xt);
对于平滑(smoothing)计算的后验概率形式为: p ( z t ∣ x 1 , x 2 , . . . , x T ) p(z_{t}|x_{1},x_{2},...,x_{T}) p(zt∣x1,x2,...,xT);
滤波与平滑看起来很像,但滤波是随时间推进而动态执行的,平滑则是在获取所有时刻的观测变量后再进行估计:
对于预测问题(predicting),很显然是根据直至当前时刻的观测变量,预测下一时刻的状态变量和观测变量:
z
t
+
1
,
x
t
+
1
z_{t+1},x_{t+1}
zt+1,xt+1,即估计的后验概率形式为:
p
(
z
t
+
1
∣
x
1
,
.
.
.
,
x
t
)
,
p
(
x
t
+
1
∣
x
1
,
.
.
.
,
x
t
)
p(z_{t+1}|x_{1},...,x_{t}),p(x_{t+1}|x_{1},...,x_{t})
p(zt+1∣x1,...,xt),p(xt+1∣x1,...,xt)