Chapter 13: Sequential data

最新推荐文章于 2024-05-14 20:20:52 发布

weishenmetlc

最新推荐文章于 2024-05-14 20:20:52 发布

阅读量1.6k

点赞数 2

分类专栏：模式识别与机器学习1-14章内容小结-bishop

本文链接：https://blog.csdn.net/weishenmetlc/article/details/53400289

版权

模式识别与机器学习1-14章内容小结-bishop 专栏收录该内容

18 篇文章 10 订阅

订阅专栏

一：Introduction

1：在之前的章节中，我们假设数据集中的数据点是独立且全同分布的（i.i.d.）以至于我们可以将似然函数表达成每个数据点概率分布积的形式，但是这个情况不能适用所有情况，比如序列数据(sequential data)。sequential data经常出现在时间序列的测量中，数据先后产生。直觉告诉我们这些数据应该是前后关联的，所以i.i.d.的假设是不适用的；

2：序列分布(sequential distribution)分为静态(stationary)和非静态(nonstationary)这两种类型，在静态情况下，虽然数据随着时间演化，但产生数据的概率分布是始终不变的；在非静态情况下，数据不仅随着时间演化，并且产生数据的概率分布也随着时间变化；

3：Markov models和state space models能够被用来描述序列数据(sequential data)，Markov models假定未来的预测并不是与所有过去的观察都有关，而是只与最近的观察有关；相比于Markov model，state sapce models具有更多的普遍性，该模型是通过latent variables的引入来使得未来的预测与所有过去的观察均有关联；state space models有两种重要的具体例子，一个是hidden markov models，其latent variables是离散分布的，另外一个是latent variables服从高斯分布的linear dynamical systems。

二：Markov Models

1：first-order Markov chain说的是条件在现在的态，未来态与过去态无关，概率表达形式为 $p(\vec x_{n}|\vec{x}_{1},...,\vec{x}_{n-1})=p(\vec{x}_{n}|\vec{x}_{n-1})$ 。因此当我们用如此的模型去预测下一个观察值，预测分布仅仅依赖于其先前的一个观察值，与更早的观察值无关；

2：不难看出first-order markov chain有其局限性，如果我们允许观察值与先前两个观察值有关，我们就获得了一个second-order Markov chain，数学表达形式为 $p(\vec x_{n}|\vec{x}_{1},...,\vec{x}_{n-1})=p(\vec{x}_{n}|\vec{x}_{n-1},\vec{x}_{n-2})$

3：因此按照上述思路，我们能够有Mth-order Markov chain，也就是一个变量的条件分布依赖于其先前M个变量。虽然如此模型的灵活性增加了，但是这个模型的参数的数目为 $K^{M-1}(K-1)$ （假设变量有K个离散态），是随着M指数增长的，因此对于比较大的M，Mth-order Markov chain很难行得通；

4：在这种情况下，为了使得目前的观测值与所有过去的观测值均相关，同时又避免过多的参数，我们能够引入latent variables $\vec{z}$ ，每个观察 $\vec{x}_{n}$ 都有一个对应的latent variable $\vec{z}_{n}$ ，对应的条件概率分布为 $p(\vec{x}_{n}|\vec{x}_{n})$ ，同时latent variable形成了first-order Markov chain，这就导致了state space model，所有变量的联合概率分布如下：

p (x ⃗ 1, . . ., x ⃗ N, z ⃗ 1, . . ., z ⃗ N) = p (z ⃗ 1) {\prod n = 2 N p (z ⃗ n | z ⃗ n - 1)} \prod n = 1 N p (x ⃗ n | z ⃗ n)

$p(\vec{x}_{1},...,\vec{x}_{N},\vec{z}_{1},...,\vec{z}_{N})=p(\vec{z}_{1})\{\prod_{n=2}^{N}p(\vec{z}_{n}|\vec{z}_{n-1})\}\prod_{n=1}^{N}p(\vec{x}_{n}|\vec{z}_{n})$ 并且对于

x⃗ n+1 $\vec{x}_{n+1}$ 的预测分布

p(x⃗ n+1|x⃗ 1,...,x⃗ n) $p(\vec{x}_{n+1}|\vec{x}_{1},...,\vec{x}_{n})$ 没有任何的条件独立性质，因此state space model达到了我们之前要求，即

X⃗ n+1 $\vec{X}_{n+1}$ 的观察依赖于所有先前的观察；

5：用于描述序列数据(sequential data)的state space models有两个非常重要的例子，一个是hidden Markov model，其latent variables $\vec{z}$ 是离散的，但观察变量 $\vec{x}$ 可以是连续的也可以是离散的，条件概率分布 $p(\vec{z}_{n}|\vec{z}_{n-1})$ 以及 $p(\vec{x}_{n}|\vec{z}_{n})$ 能够被很多概率模型描述；另外一个例子是linear dynamical system(LSD)，latent variables和observed variables都是连续的，并且条件在它们母结点的条件概率分布满足linear-Gaussian 依赖性；

三：Hidden Markov Models(HMM)

1)：假设形成Markov chain的latent variables $\vec{z}_{n}$ 有K个态，用1-of-K coding scheme表示。令 $A_{jk}=p(z_{nk}=1|z_{n-1,j}=1)$ ( $0=<A_{jk}<=1,\sum_{k}A_{jk}=1$ ，矩阵A的元素被称之为transition probabilities)，因此条件在 $\vec{z}_{n-1}$ 的 $\vec{z}_{n}$ 的条件分布如下：

p (z ⃗ n | z ⃗ n - 1) = \prod k = 1 K \prod j = 1 K A z n - 1, j z n k j k

$p(\vec{z}_{n}|\vec{z}_{n-1})=\prod_{k=1}^{K}\prod_{j=1}^{K}A_{jk}^{z_{n-1,j}z_{nk}}$ 初始的latent node

z⃗ 1 $\vec{z}_{1}$ 的分布如下：

p (z ⃗ 1 | π ⃗) = \prod k = 1 K π z 1 k k

$p(\vec{z}_{1}|\vec{\pi})=\prod_{k=1}^{K}\pi_{k}^{z_{1k}}$ 其中

πk $\pi_{k}$ 满足

∑kπk=1 $\sum_{k}\pi_{k}=1$

2)：条件在latent variables $\vec{z}_{n}$ 的观察变量概率分布 $p(\vec{x}_{n}|\vec{z}_{n},\vec{\phi})$ 被称之为发射概率(emission probabilities)，具有如下形式：

p (x ⃗ n | z ⃗ n, ϕ ⃗) = \prod k = 1 K p (x ⃗ n | ϕ ⃗ k) z n k

$p(\vec{x}_{n}|\vec{z}_{n},\vec{\phi})=\prod_{k=1}^{K}p(\vec{x}_{n}|\vec{\phi}_{k})^{z_{nk}}$
在这里

ϕ⃗ $\vec{\phi}$ 为此发射概率的参数集；

3)：下面的讨论限定于homogeneous model。对于homogeneous model来说，所有latent variables的条件分布具有相同的参数A，以及所有的emission probabilities具有相同的参数 $\vec{\phi}$ 。在此情况下，latent和observed变量的联合分布如下：

p (X, Z | θ ⃗) = p (z ⃗ 1 | π ⃗) [\prod n = 2 N p (z ⃗ n | z ⃗ n - 1, A)] \prod m = 1 N p (x ⃗ m | z ⃗ m, ϕ ⃗)

$p(X,Z|\vec{\theta})=p(\vec{z}_{1}|\vec{\pi})[\prod_{n=2}^{N}p(\vec{z}_{n}|\vec{z}_{n-1},A)]\prod_{m=1}^{N}p(\vec{x}_{m}|\vec{z}_{m},\vec{\phi})$
在这里

X={x⃗ 1,...,x⃗ N},Z={z⃗ 1,...,z⃗ N},θ⃗ ={π⃗ ,A,ϕ⃗ } $X=\{\vec{x}_{1},...,\vec{x}_{N}\},Z=\{\vec{z}_{1},...,\vec{z}_{N}\},\vec{\theta}=\{\vec{\pi},A,\vec{\phi}\}$

4)：通过对tansition matrix A的形式施加限制，标准HMM的许多变体能够被获得。其中有一个特别重要的例子是left-to-right HMM，对应的A满足 $A_{jk}=0(k<j)$ ，在此基础上，若A进一步被限制为 $A_{jk}=0(k>j+\Delta)$ ,则可以确保latent variable的state index不会发生大的改变；

1：Maximum likelihood for the HMM

1)：由于似然函数可以表达为 $p(X|\vec{\theta})=\sum_{Z}p(X,Z|\vec{\theta})$ ，因此我们可以用EM算法求解似然函数最大值对应的参数值

2)：complete-log似然函数如下：

Q (θ ⃗, θ ⃗ o l d) = \sum k = 1 K γ (z 1 k) ln π k + \sum n = 2 N \sum j = 1 K \sum k = 1 K ξ (z n - 1, j, z n k) ln A j k + \sum n = 1 N \sum k = 1 K γ (z n k) ln p (x ⃗ n | ϕ ⃗ k)

$Q(\vec{\theta},\vec{\theta}^{old})=\sum_{k=1}^{K}\gamma(z_{1k})\ln{\pi_{k}}+\sum_{n=2}^{N}\sum_{j=1}^{K}\sum_{k=1}^{K}\xi(z_{n-1,j},z_{nk})\ln{A_{jk}}+\sum_{n=1}^{N}\sum_{k=1}^{K}\gamma(z_{nk})\ln{p(\vec{x}_{n}|\vec{\phi}_{k})}$
其中

γ(znk),ξ(zn−1,j,znk) $\gamma(z_{nk}),\xi(z_{n-1,j},z_{nk})$ 为变量

znk $z_{nk}$ 以及

zn−1,j∗znk $z_{n-1,j}*z_{nk}$ 的期待值，具体表达形式如下：

γ (z n k) = E [z n k] = \sum Z p (Z | X, θ ⃗ o l d) z n k ξ (z n - 1, j, z n k) = E [z n - 1, j z n k] = \sum Z p (Z | X, θ ⃗ o l d) z n - 1, j z n k

$\gamma(z_{nk})=E[z_{nk}]=\sum_{Z}p(Z|X,\vec{\theta}^{old})z_{nk}\\ \xi(z_{n-1,j},z_{nk})=E[z_{n-1,j}z_{nk}]=\sum_{Z}p(Z|X,\vec{\theta}^{old})z_{n-1,j}z_{nk}$
因此在E step，我们需要计算

γ(znk) $\gamma(z_{nk})$ 以及

ξ(zn−1,j,znk) $\xi(z_{n-1,j},z_{nk})$

3)：在M step，对上述函数最大化，我们获得的 $\pi_{k},A_{jk}$ 的表达式如下：

π k = γ ( z 1 k ) \sum K j = 1 γ ( z 1 j ) A j k = \sum N n = 2 ξ ( z n - 1 , j , z n k ) \sum K l = 1 \sum N n = 2 ξ ( z n - 1 , j , z n l )

$\pi_{k}=\frac{\gamma(z_{1k})}{\sum_{j=1}^{K}\gamma(z_{1j})}\\A_{jk}=\frac{\sum_{n=2}^{N}\xi(z_{n-1,j},z_{nk})}{\sum_{l=1}^{K}\sum_{n=2}^{N}\xi(z_{n-1,j},z_{nl})}$
要注意的是，如果

π⃗ ,A $\vec{\pi},A$ 中的任何元素最开始被设置为0，在此后的EM updates中对应的元素将一直保持为0，因此对于left-to-right HMM来说，我们只需要在最开始处设置A中的对应元素

Ajk $A_{jk}$ 为0即可，因为这些元素将会一直保持为0；

4)：如果 $p(\vec{x}|\vec{\phi}_{k})=N(\vec{x}|\vec{u}_{k},\Sigma_{k})$ ，则相对于 $\vec{u}_{k},\Sigma_{k}$ 最大化 $Q(\vec{\theta},\vec{\theta}^{old})$ 可以获得如下两个关于 $\vec{u}_{k},\Sigma_{k}$ 两个表达式：

u ⃗ k = \sum N n = 1 γ ( z n k ) x ⃗ n \sum N n = 1 γ ( z n k ) Σ k = \sum N n = 1 γ ( z n k ) ( x ⃗ n - u ⃗ k ) ( x ⃗ n - u ⃗ k ) T \sum N n = 1 γ ( z n k )

$\vec{u}_{k}=\frac{\sum_{n=1}^{N}\gamma(z_{nk})\vec{x}_{n}}{\sum_{n=1}^{N}\gamma(z_{nk})}\\ \Sigma_{k}=\frac{\sum_{n=1}^{N}\gamma(z_{nk})(\vec{x}_{n}-\vec{u}_{k})(\vec{x}_{n}-\vec{u}_{k})^{T}}{\sum_{n=1}^{N}\gamma(z_{nk})}$

5)：如果observed variables $\vec{x}$ 为离散多项式变量，则 $p(\vec{x}|\vec{z})=\prod_{i=1}^{D}\prod_{k=1}^{K}u_{ik}^{x_{i}z_{k}}$ ，对应的M step方程如下：

u i k = \sum N n = 1 γ ( z n k ) x n i \sum N n = 1 γ ( z n k )

$u_{ik}=\frac{\sum_{n=1}^{N}\gamma(z_{nk})x_{ni}}{\sum_{n=1}^{N}\gamma(z_{nk})}$

2：The forward-backward algorithm

1)：forward-backward algorithm能够被用来计算在E step中要求的 $\gamma(z_{nk})$ 以及 $\xi(z_{n-1,j},z_{nk})$ 。要注意的是 $\gamma(z_{nk})$ 即为 $p(z_{nk}=1|X)$ ，也就是 $p(\vec{z}_{n}|X)$ 的第k个分量，同时 $\xi(z_{n-1,j},z_{nk})$ 即为 $p(z_{n-1,j}=1,z_{nk}=1|X)$ ，也就是 $p(\vec{z}_{n-1},\vec{z}_{n}|X)$ 的位置为(j,k)的元素；

2)：令 $\gamma(\vec{z}_{n})=p(\vec{z}_{n}|X)$ ，即为 $\vec{z}_{n}$ 的后验概率，则 $\gamma(\vec{z}_{n})=\alpha(\vec{z}_{n})\beta(\vec{z}_{n})/p(X)$ ，在这里 $\alpha(\vec{z}_{n})=p(\vec{x}_{1},...,\vec{x}_{n},\vec{z}_{n}),\beta(\vec{z}_{n})=p(\vec{x}_{n+1},...,\vec{x}_{N}|\vec{z}_{n})$ ，则我们可以获得如下的递推关系式：

α (z ⃗ n) = p (x ⃗ n | z ⃗ n) \sum z ⃗ n - 1 α (z ⃗ n - 1) p (z ⃗ n | z ⃗ n - 1) α (z ⃗ 1) = \prod k = 1 K {π k p (x ⃗ 1 | ϕ ⃗ k)} z 1 k β (z ⃗ n) = \sum z ⃗ n + 1 β (z ⃗ n + 1) p (x ⃗ n + 1 | z ⃗ n + 1) p (z ⃗ n + 1 | z ⃗ n) β (z ⃗ N) = 1

$\alpha(\vec{z}_{n})=p(\vec{x}_{n}|\vec{z}_{n})\sum_{\vec{z}_{n-1}}\alpha(\vec{z}_{n-1})p(\vec{z}_{n}|\vec{z}_{n-1}) \\\alpha(\vec{z}_{1})=\prod_{k=1}^{K}\{\pi_{k}p(\vec{x}_{1}|\vec{\phi}_{k})\}^{z_{1k}} \\ \beta(\vec{z}_{n})=\sum_{\vec{z}_{n+1}}\beta(\vec{z}_{n+1})p(\vec{x}_{n+1}|\vec{z}_{n+1})p(\vec{z}_{n+1}|\vec{z}_{n}) \\ \beta(\vec{z}_{N})=1$
因此

γ(znk)=α(znk)β(znk)/p(X) $\gamma(z_{nk})=\alpha(z_{nk})\beta(z_{nk})/p(X)$ ，将其带入M step方程中，P(X)将会被抵消，因此我们只需知道

α(z⃗ n),β(z⃗ n) $\alpha(\vec{z}_{n}),\beta(\vec{z}_{n})$ 即可

3)：当然，我们可以计算似然函数p(X)值，计算方程式如下：

p (X) = \sum z ⃗ n α (z ⃗ n) β (z ⃗ n)

$p(X)=\sum_{\vec{z}_{n}}\alpha(\vec{z}_{n})\beta(\vec{z}_{n})$ 因此我们可以选择一个最为方便的n计算p(X)。一般来说，我们会将n选择为N，这样的话

p(X)=∑z⃗ Nα(z⃗ N) $p(X)=\sum_{\vec{z}_{N}}\alpha(\vec{z}_{N})$

4)：令 $\xi(\vec{z}_{n-1},\vec{z}_{n})=p(\vec{z}_{n-1},\vec{z}_{n}|X)$ ，则我们可以获得下述表达式：

ξ (z ⃗ n - 1, z ⃗ n) = α ( z ⃗ n - 1 ) p ( x ⃗ n | z ⃗ n ) p ( z ⃗ n | z ⃗ n - 1 ) β ( z ⃗ n ) p ( X )

$\xi(\vec{z}_{n-1},\vec{z}_{n})=\frac{\alpha(\vec{z}_{n-1})p(\vec{x}_{n}|\vec{z}_{n})p(\vec{z}_{n}|\vec{z}_{n-1})\beta(\vec{z}_{n})}{p(X)}$

5)：预测分布 $p(\vec{x}_{N+1}|X)$ 的表达式如下：

p (x ⃗ N + 1 | X) = 1 p ( X ) \sum z ⃗ N + 1 p (x ⃗ N + 1 | z ⃗ N + 1) \sum z ⃗ N p (z ⃗ N + 1 | z ⃗ N) α (z ⃗ N)

$p(\vec{x}_{N+1}|X)=\frac{1}{p(X)}\sum_{\vec{z}_{N+1}}p(\vec{x}_{N+1}|\vec{z}_{N+1})\sum_{\vec{z}_{N}}p(\vec{z}_{N+1}|\vec{z}_{N})\alpha(\vec{z}_{N})$

3：Scaling factors

1)：递推式 $\alpha(\vec{z}_{n})=p(\vec{x}_{n}|\vec{z}_{n})\sum_{\vec{z}_{n-1}}\alpha(\vec{z}_{n-1})p(\vec{z}_{n}|\vec{z}_{n-1})$ 包含着概率的相乘，一般来说这些概率很小，概率相乘起来会更小，因此如果沿着链结点不断往下递推的话， $\alpha(\vec{z}_{n})$ 会指数地朝着0衰减，因此 $\alpha(\vec{z}_{n})$ 可能会超过计算机的数字范围，尽管双精度浮点数被使用了。所以需要对 $\alpha(\vec{z}_{n})$ 进行rescale；

2)：令 $\widehat{\alpha}(\vec{z}_{n})=p(\vec{z}_{n}|\vec{x}_{1},...,\vec{x}_{n})=\alpha(\vec{z}_{n})/p(\vec{x}_{1},...,\vec{x}_{n})$ ，因为 $\widehat{\alpha}(\vec{z}_{n})$ 是单个变量的概率分布，因此我们可以期待其会在数值上表现的很好，其满足如下的递推关系式：

c n α ˆ (z ⃗ n) = p (x ⃗ n | z ⃗ n) \sum z ⃗ n - 1 α ˆ (z ⃗ n - 1) p (z ⃗ n | z ⃗ n - 1)

$c_{n}\widehat{\alpha}(\vec{z}_{n})=p(\vec{x}_{n}|\vec{z}_{n})\sum_{\vec{z}_{n-1}}\widehat{\alpha}(\vec{z}_{n-1})p(\vec{z}_{n}|\vec{z}_{n-1})$
其中

cn=p(x⃗ n|x⃗ 1,...,x⃗ n−1) $c_{n}=p(\vec{x}_{n}|\vec{x}_{1},...,\vec{x}_{n-1})$ ，其值可以通过对等式右边归一化得到。

αˆ(z⃗ n) $\widehat{\alpha}(\vec{z}_{n})$ 与

α(z⃗ n) $\alpha(\vec{z}_{n})$ 之间有如下的关系：

α (z ⃗ n) = (\prod m = 1 n c m) α ˆ (z ⃗ n)

$\alpha(\vec{z}_{n})=(\prod_{m=1}^{n}c_{m})\widehat{\alpha}(\vec{z}_{n})$

3)：若令 $\widehat{\beta}(\vec{z}_{n})=p(\vec{x}_{n+1},...,\vec{x}_{N}|\vec{z}_{n})/p(\vec{x}_{n+1},...,\vec{x}_{N}|\vec{x}_{1},...,\vec{x}_{n})$ ，此为两个条件概率之间的比值，我们也可以期待该值在数值上会表现的很好，其具有如下的地递推关系式：

c n + 1 β ˆ (z ⃗ n) = \sum z ⃗ n + 1 β ˆ (z ⃗ n + 1) p (x ⃗ n + 1 | z ⃗ n + 1) p (z ⃗ n + 1 | z ⃗ n)

$c_{n+1}\widehat{\beta}(\vec{z}_{n})=\sum_{\vec{z}_{n+1}}\widehat{\beta}(\vec{z}_{n+1})p(\vec{x}_{n+1}|\vec{z}_{n+1})p(\vec{z}_{n+1}|\vec{z}_{n})$ 其中

cn $c_{n}$ 的值是在对

αˆ $\widehat{\alpha}$ 递推关系式中获得的。

βˆ(z⃗ n) $\widehat{\beta}(\vec{z}_{n})$ 与

β(z⃗ n) $\beta(\vec{z}_{n})$ 之间有如下的关系：

β (z ⃗ n) = (\prod m = n + 1 N c m) β ˆ (z ⃗ n)

$\beta(\vec{z}_{n})=(\prod_{m=n+1}^{N}c_{m})\widehat{\beta}(\vec{z}_{n})$

4)：在此情形下，似然函数可以表达为 $p(X)=\prod_{n=1}^{N}c_{n}$ ， $\gamma(\vec{z}_{n})=\widehat{\alpha}(\vec{z}_{n})\widehat{\beta}(\vec{z}_{n})$ ， $\xi(\vec{z}_{n-1},\vec{z}_{n})=c_{n}\widehat(\alpha)(\vec{z}_{n-1})p(\vec{x}_{n}|\vec{z}_{n})p(\vec{z}_{n}|\vec{z}_{n-1})\widehat{\beta}(\vec{z}_{n})$

4：The Viterbi algorithm

1)：对于一个hidden markov model来说，有时候我们需要找到一组最可能的latent variable states，也就是使得observed variables和latent variables的联合概率 $p(\vec{x}_{1},...,\vec{x}_{N},\vec{z}_{1},...,\vec{z}_{N})$ 最大化，在此我们就可以使用viterbi algorithm；

2)：令 $w(\vec{z}_{n})=u_{f_{n}->\vec{z}_{n}}(\vec{z}_{n})$ ，则我们可以获得如下的递推关系式：

w (z ⃗ n + 1) = ln p (x ⃗ n + 1 | z ⃗ n + 1) + m a x z ⃗ n {ln p (x ⃗ n + 1 | z ⃗ n) + w (z n \to)} w (z ⃗ 1) = ln p (z ⃗ 1) + ln p (x ⃗ 1 | z ⃗ 1)

$w(\vec{z}_{n+1})=\ln{p(\vec{x}_{n+1}|\vec{z}_{n+1})}+max_{\vec{z}_{n}}\{\ln{p(\vec{x}_{n+1}|\vec{z}_{n})}+w(\vec{z_{n}})\} \\ w(\vec{z}_{1})=\ln{p(\vec{z}_{1})}+\ln{p(\vec{x}_{1}|\vec{z}_{1})}$ 并且

w(z⃗ n) $w(\vec{z}_{n})$ 能够被理解为

w(z⃗ n)=maxz⃗ 1,...,z⃗ n−1p(x⃗ 1,...,x⃗ n,z⃗ 1,...,z⃗ n) $w(\vec{z}_{n})=max_{\vec{z}_{1},...,\vec{z}_{n-1}}p(\vec{x}_{1},...,\vec{x}_{n},\vec{z}_{1},...,\vec{z}_{n})$ 。因此我们能够沿着上述的递推关系式得出

w(z⃗ N) $w(\vec{z}_{N})$ 的值，然后对其进行最大化，即就可以得到我们想要的observed variables和latent variables的联合概率

p(x⃗ 1,...,x⃗ N,z⃗ 1,...,z⃗ N) $p(\vec{x}_{1},...,\vec{x}_{N},\vec{z}_{1},...,\vec{z}_{N})$ 最大值

3)：从上述递推关系式中，我们发现对于 $\vec{z}_{n+1}$ 的每个态，都一个对应的使得 $w(\vec{z}_{n+1})$ 最大化的 $\vec{z}_{n}$ 。因此为了获得联合概率最大值所对应的一些列latent variable states，我们可以采用回溯法，先求出使得 $w(\vec{z}_{N})$ 最大化所对应的 $\vec{z}_{N}$ 态，然后根据之前说的每一个 $\vec{z}_{N}$ 态都有一个最优化的 $\vec{z}_{N-1}$ ，找出使得 $w(\vec{z}_{N})$ 最大化的 $\vec{z}_{N}$ 态所对应的 $\vec{z}_{N-1}$ ，以此回溯，直至找到对应的 $\vec{z}_{1}$ 态为止；

四：Linear Dynamical Systems(LDS)

1)：Linear Dynamical Systems与hidden markov models具有相同的图结构，但是在Linear Dynamical Systems中，latent variable $\vec{z}_{n}$ 是连续变量，并且transition和emission distributions具有如下的高斯分布形式：

p (z ⃗ n | z ⃗ n - 1) = N (z ⃗ n | A z ⃗ n - 1, Γ) p (x ⃗ n | z ⃗ n) = N (x ⃗ n | C z ⃗ n, Σ) p (z ⃗ 1) = N (z ⃗ 1 | u ⃗ 0, V 0)

$p(\vec{z}_{n}|\vec{z}_{n-1})=N(\vec{z}_{n}|A\vec{z}_{n-1},\Gamma) \\ p(\vec{x}_{n}|\vec{z}_{n})=N(\vec{x}_{n}|C\vec{z}_{n},\Sigma)\\p(\vec{z}_{1})=N(\vec{z}_{1}|\vec{u}_{0},V_{0})$
通过EM算法极大似然函数，我们能够获得模型的参数值

θ⃗ ={A,Γ,C,Σ,u⃗ 0,V0} $\vec{\theta}=\{A,\Gamma,C,\Sigma,\vec{u}_{0},V_{0}\}$

1：Inference in LDS

1)：在LDS中， $\widehat{\alpha}(\vec{z}_{n})=p(\vec{z}_{n}|\vec{x}_{1},...,\vec{x}_{n})$ 为高斯分布，并令其形式为 $N(\vec{z}_{n}|\vec{u}_{n},V_{n})$ ，则其具有如下的递推关系式：

u ⃗ n = A u ⃗ n - 1 + K n (x ⃗ n - C A u ⃗ n - 1) V n = (I - K n C) P n - 1 K n = P n - 1 C T (C P n - 1 C T + Σ) - 1 P n - 1 = A V n - 1 A T + Γ

$\vec{u}_{n}=A\vec{u}_{n-1}+K_{n}(\vec{x}_{n}-CA\vec{u}_{n-1}) \\ V_{n}=(I-K_{n}C)P_{n-1} \\ K_{n}=P_{n-1}C^{T}(CP_{n-1}C^{T}+\Sigma)^{-1}\\P_{n-1}=AV_{n-1}A^{T}+\Gamma$ 上述递推关系式初始化式为：

u ⃗ 1 = u ⃗ 0 + K 1 (x ⃗ 1 - C u ⃗ 0) V 1 = (I - K 1 C) V 0 K 1 = V 0 C T (C V 0 C T + Σ) - 1

$\vec{u}_{1}=\vec{u}_{0}+K_{1}(\vec{x}_{1}-C\vec{u}_{0}) \\ V_{1}=(I-K_{1}C)V_{0}\\K_{1}=V_{0}C^{T}(CV_{0}C^{T}+\Sigma)^{-1}$

2)：latent variable $\vec{z}_{n}$ 的后验分布 $p(\vec{z}_{n}|X)$ 具有高斯形式 $N(\vec{z}_{n}|\widehat{\vec{u}}_{n},\widehat{V}_{n})$ ，对应的均值和方差具有如下的递推关系式：

u ⃗ ˆ n = u ⃗ n + J n (u ⃗ ˆ n + 1 - A u ⃗ N) V ˆ n = V n + J n (V ˆ n + 1 - P n) J T n J n = V n A T (P n) - 1

$\widehat{\vec{u}}_{n}=\vec{u}_{n}+J_{n}(\widehat{\vec{u}}_{n+1}-A\vec{u}_{N}) \\ \widehat{V}_{n}=V_{n}+J_{n}(\widehat{V}_{n+1}-P_{n})J_{n}^{T} \\J_{n}=V_{n}A^{T}(P_{n})^{-1}$ 其中

{u⃗ n,Vn} $\{\vec{u}_{n},V_{n}\}$ 是在运行

αˆ(z⃗ n) $\widehat{\alpha}(\vec{z}_{n})$ 递推关系式后获得的；

3)： $\vec{z}_{n-1},\vec{z}_{n}$ 的联合后验分布 $p(\vec{z}_{n-1},\vec{z}_{n}|X)$ 也具有高斯分布形式，其均值为 $\{\widehat{\vec{u}}_{n-1},\widehat{\vec{u}}_{n}\}$ ，协方差为 $cov[\vec{z}_{n},\vec{z}_{n-1}]=J_{n-1}\widehat{V}_{n}$

2：Learning in LDS

1)：有了上述的关系式，我们可以获得 $\vec{z}_{n},\vec{z}_{n}\vec{z}_{n-1}^{T},\vec{z}_{n}\vec{z}_{n}^{T}$ 的期待值，然后对complete-log似然函数期待值最大化我们则可以获得对应的参数值；

3：Particle filters

1)：对于非线性高斯的dynaical systems来说，我们通常采取抽样方法(sampling method)为了找到可解的推理算法。特别是，我们能够采取sampling-importrance-resampling方法获得序列的Monte Carlo算法，这被称为particle filter；

2)：下面给出了步骤显示怎样从后验分布 $p(\vec{z}_{n}|X_{n})$ 中提取L个样品，其中 $X_{n}=(\vec{x}_{1},...,\vec{x}_{n})$

步骤1：从 $p(\vec{z}_{1})$ 中提取L个样品 $\vec{z}_{1}^{(l)}$ ，给予其权重 $w_{1}^{(l)}=p(\vec{x}_{1}|\vec{z}_{1}^{(l)})/\sum_{m=1}^{L}p(\vec{x}_{1}|\vec{z}_{1}^{(m)})$ ，这个能够代表后验分布 $p(\vec{z}_{1}|\vec{x}_{1})$ ；

步骤2：现在假设我们有了 $p(\vec{z}_{n}|X_{n})$ 的L个样品{ $\vec{z}_{n}^{(l)}$ }及其对应的权重{ $w_{n}^{(l)}$ }，则我们从 $p(\vec{z}_{n+1}|X_{n})=\sum_{l}w_{n}^{(l)}p(\vec{z}_{n+1}|\vec{z}_{n}^{(l)})$ 混合分布中提取L个样品{ $\vec{z}_{n+1}^{(l)}$ }，然后再对其赋予权重 $w_{n+1}^{(l)}=\frac{p(\vec{x}_{n+1}|\vec{z}_{n+1}^{(l)})}/\sum_{m=1}^{L}p(\vec{x}_{n+1}|\vec{z}_{n+1}^{(m)})$ ，这样L个样品集{ $w_{n+1}^{(l)}$ }及对应的权重{ $w_{n+1}^{l}$ }就代表了后验分布 $p(\vec{z}_{n+1}|X_{n+1})$ ；
有了步骤1及步骤2，我们就能够递推地从 $p(\vec{z}_{1}|X_{1}),...,p(\vec{z}_{N}|X_{N})$ 中提取样品。