viterbi算法与动态规划

最新推荐文章于 2022-02-25 00:00:47 发布

-倾城之恋-

最新推荐文章于 2022-02-25 00:00:47 发布

阅读量856

点赞数 1

分类专栏：统计算法

本文链接：https://blog.csdn.net/P081513083/article/details/104436558

版权

统计同时被 2 个专栏收录

23 篇文章 0 订阅

订阅专栏

算法

3 篇文章 0 订阅

订阅专栏

1、viterbi算法应用场景

viterbi算法是viterbi发明的，最初用于数字通信中解卷积，现在也被用于语音识别，词性标注等。其属于一种动态规划算法。
简单来说，存在这样一种任务场景:
已知观察序列 ${o_1,o_2,...,o_T\}$ ，希望知道对应的最可能的隐状态序列 ${h_1,h_2,...,h_T\}$ 。

在隐马尔可夫模型假设中有：
初始状态概率:
$\pi_i=p(h_1=i),i=1,...,m$ , $m$ 为隐状态数量。
转移概率：
$a_{ij}=p(h_t=j|h_{t-1}=i)$ ，即在任意时刻 $t - 1$ 从状态 $i$ 转移到状态 $j$ 的概率， $t = 2, . . . T$ 。
观察概率：
$b_i(k)=p(o_t=k|h_t=i)$ ，即在任意时刻状态 $i$ 生成观察 $o_t=k$ 的概率。

假设模型概率 $\pi_i$ ， $a_{ij}$ ， $b_i(k)$ 都已知，则问题形式化为求：
$h_1^*,....,h_T^*=\arg\max\limits_{h_1,...,h_T} p(h_1,...,h_T|o_1,...,o_T)=\arg\max\limits_{h_1,...,h_T} p(h_1,...,h_T,o_1,...,o_T)$ 。

2、viterbi算法的导出

此任务为多步骤最佳决策或路径问题，自然考虑使用动态规划思想求解，需要构造递推式。
由于目标是求最大可能性（概率）的状态路径，因此要求的是所有路径中的最大概率。
假设 $T$ 时刻路径最大概率:

$\max\limits_{h_1,...,h_{T}}p(h_1,...,h_{T-1},h_{T},o_1,o_2,...,o_T)\\ =\max\limits_{h_T}\max\limits_{h_1,...,h_{T-1}}p(h_1,...,h_{T-1},h_{T},o_1,o_2,...,o_T)\\ =\max\limits_{h_T}\max\limits_{h_1,...,h_{T-1}}P(h_1,...,h_{T-1},o_1,o_2,...,o_{T-1})p(h_T|h_{T-1})p(o_T|h_T)$
此时貌似看到了递归结构：
$\max\limits_{h_1,...,h_{T}}p(h_1,...,h_{T-1},h_{T},o_1,o_2,...,o_T)\\ =\max\limits_{h_T}\max\limits_{h_1,...,h_{T-1}}P(h_1,...,h_{T-1},o_1,o_2,...,o_{T-1})p(h_T|h_{T-1})p(o_T|h_T)$ --------------- $(1)$
错误推导：
记 $M(T)=\max\limits_{h_1,...,h_{T}}p(h_1,...,h_{T-1},h_{T},o_1,o_2,...,o_T)$ ，
则 $M(T)=M(T-1)\max\limits_{h_T}p(h_T|h_{T-1})p(o_T|h_T)$

实际上 $(1)$ 式中 $\max\limits_{h_1,...,h_{T-1}}P(h_1,...,h_{T-1},o_1,o_2,...,o_{T-1})$ 不能被单独计算，因为 $p(h_T|h_{T-1})$ 中还含有 $h_{T-1}$ 。
如果 $h_{T-1}$ 取 $\max\limits_{h_1,...,h_{T-1}}P(h_1,...,h_{T-1},o_1,o_2,...,o_{T-1})$ 的 $h_{T-1}^*$ ，则得到基于贪心的算法。

正确推导1：
记 $M(T,h_T)=\max\limits_{h_1,...,h_{T-1}}p(h_1,...,h_{T-1},o_1,o_2,...,o_{T-1})p(h_T|h_{T-1})$ ，
则由(1)式得
$M(T,h_T) \\=\max\limits_{h_{T-1}}\max\limits_{h_1,...,h_{T-2}}p(h_1,...,h_{T-2},o_1,o_2,...,o_{T-2})p(h_{T-1}|h_{T-2})p(o_{T-1}|h_{T-1})p(h_T|h_{T-1}) \\=\max\limits_{h_{T-1}}M(T-1,h_{T-1})p(o_{T-1}|h_{T-1})p(h_T|h_{T-1})$
其中 $M(T-1,h_{T-1})=\max\limits_{h_1,...,h_{T-2}}p(h_1,...,h_{T-2},o_1,o_2,...,o_{T-2})p(h_{T-1}|h_{T-2})$ 。
$M(2,h_{2})=\max\limits_{h_1}p(h_1,o_1)p(h_2|h_1)$
$M(1,h_{1})=p(h_1)$

正确推导2：
记： $M(T,h_T)=\max\limits_{h_1,...,h_{T-1}}p(h_1,...,h_{T-1},o_1,o_2,...,o_{T-1})p(h_T|h_{T-1})p(o_T|h_T) \\=\max\limits_{h_1,...,h_{T-1}}p(h_1,...,h_{T},o_1,o_2,...,o_{T})$ ，
则由(1)式得 $M(T,h_T)=\max\limits_{h_{T-1}}M(T-1,h_{T-1})p(h_{T}|h_{T-1})p(o_T|h_T)$
其中 $M(T-1,h_{T-1})=\max\limits_{h_1,...,h_{T-2}}p(h_1,...,h_{T-1},o_1,o_2,...,o_{T-1})$ 。
$M(1,h_{1})=p(h_1,o_1)$ 。

最优状态路径推导（从后向前）：
已知 $T$ 时刻的最大概率 $\max\limits_{h_T}M(T,h_T)$ 以及最佳状态 $h_T^*=\arg\max\limits_{h_T}M(T,h_T)$ ，则需要查找得到最大概率 $M(T,h_T^*)$ 的 $h_{T-1}^*$ 。
$M(T,h_T^*)=\max\limits_{h_{T-1}}M(T-1,h_{T-1})p(h_{T}^*|h_{T-1})p(o_T|h_T^*)$ ，
即 $h_{T-1}^*=\arg\max\limits_{h_{T-1}} M(T-1,h_{T-1})p(h_{T}^*|h_{T-1})p(o_T|h_T^*)$ 。
为减少计算量，可以在正向递推时用二维矩阵记录路径依赖关系。
$D(t,h_{t}) = h_{t-1} = \arg\max\limits_{h_{t-1}} M(t-1,h_{t-1})p(h_{t}|h_{t-1})p(o_t|h_t)$ 。

注意1：
有时候可能试图假设已知 $t$ 时刻最佳路径 $h_1^*,...,h_{t}^*$ ，推导 $t + 1$ 时刻的最佳路径 $h_1^{**},...,h_{t+1}^{**}$ 。但是需要知道 $t + 1$ 时刻的最佳路径可能不包含 $t$ 时刻最佳路径 $h_1^*,...,h_{t}^*$ 。因此 $t + 1$ 时刻最佳路径的概率 $P(h_1^{**},...,h_{t+1}^{**},o_1,o_2,...,o_{t+1})$ 不能由 $t$ 时刻最佳佳路径的概率 $P(h_1^*,...,h_{t}^*,o_1,o_2,...,o_{t})$ 直接计算得到。

$p(h_1^{**},...,h_{T-1}^{**},h_{T}^{**},o_1,o_2,...,o_T) \neq\max\limits_{h_{T}}P(h_1^*,...,h_{T-1}^*,h_{T},o_1,o_2,...,o_{T})p(h_T|h_{T-1}^*)p(o_T|h_T)$
如果假设近似相等得到贪心算法。

注意2：
假设 $h_1^*,...,h_{t}^*$ 是从 $1$ 到 $t$ 时刻最可能的路径（概率最大）。

则 $h_1^*,...,h_{t-1}^*$ 不是从 $1$ 到 $t - 1$ 时刻最可能路径。
但是 $h_1^*,...,h_{t-1}^*$ 是从 $1$ 到 $t - 1$ 时刻，经过 $h_{t-1}^*$ 的所有路径中最可能的一条。

3、篱笆网络有向图的最短路径问题

任何基于图的最短路径问题都可以通过动态规划来解决。而viterbi算法则是用于解决一种特殊图的最短路径问题。这个特殊图但就是篱笆网络有向图。

假设篱笆网络节点为 $h^t_{i}$ ， $t = 1, . . ., T$ ， $i = 1, . . ., K$ 为。 $a^{t}_{ij}$ 为从节点 $h^t_{i}$ 到节点 $h^{t+1}_{j}$ 的权重， $t = 1, . . ., T - 1$ 。

则从第一层节点到最后一层节点的最短路径 $M L$ 按下列递归步骤求解：

设 $M (T, j)$ 为从第 $1$ 层节点 $h^{T}_j$ 的最短路径，则 $ML=\min\limits_{j}M(T,j)$ 。
如果 $M (T, j)$ 最优路径经过节点 $h^{T-1}_i$ ，则从第一层到 $h^{T-1}_i$ 的子路径也是最优路径。因为最优路径必然经过第 $T - 1$ 节点中的一个，因此下式成立：
$M(T,j)=\min\limits_iM(T-1,i)+a^{T-1}_{ij}$ 。
$M (1, k) = 0$ 。