自然语言处理之维特比算法

最新推荐文章于 2024-01-26 09:04:24 发布

BruceWu1234

最新推荐文章于 2024-01-26 09:04:24 发布

阅读量436

点赞数

原文链接：https://blog.csdn.net/gzmfxy/article/details/78712878

版权

本文链接： https://blog.csdn.net/gzmfxy/article/details/78712878

维特比算法 (Viterbi algorithm) 是机器学习中应用非常广泛的动态规划算法，在求解隐马尔科夫、条件随机场的预测以及seq2seq模型概率计算等问题中均用到了该算法。实际上，维特比算法不仅是很多自然语言处理的解码算法，也是现代数字通信中使用最频繁的算法。在介绍维特比算法之前，先回顾一下隐马尔科夫模型，进而介绍维特比算法的计算步骤。

以下为一个简单的隐马尔科夫模型，如下图所示：

其中 x = ( x1, x2, ..., xN ) 为隐状态序列， y = ( y1, y2, ..., yN ) 为观测序列，要求的预测问题为：

依据马尔科夫假设，上式等价于：

在隐马尔科夫链中，任意时刻t下状态的值有多个，以拼音转汉字为例，输入拼音为“yike”可能有的值为一棵，一刻或者是一颗等待，用符号xij表示状态xi的第j个可能值，将状态序列按值展开，就得到了一个篱笆网了，这也就是维特比算法求解最优路径的图结构：

隐马尔科夫的预测问题就是要求图中的一条路径，使得该路径对应的概率值最大。对应上图来讲，假设每个时刻x可能取的值为3，如果直接求的话，有3^N的组合数，底数3为篱笆网络宽度，指数N为篱笆网络的长度，计算量非常大。维特比利用动态规划的思想来求解概率最大路径（可理解为求图最短路径），使得复杂度正比于序列长度，复杂度为O(N⋅D⋅D), N为长度，D为宽度，从而很好地解决了问题的求解。

维特比算法的基础可以概括为下面三点（来源于吴军：数学之美）：

1、如果概率最大的路径经过篱笆网络的某点，则从开始点到该点的子路径也一定是从开始到该点路径中概率最大的。

2、假定第i时刻有k个状态，从开始到i时刻的k个状态有k条最短路径，而最终的最短路径必然经过其中的一条。

3、根据上述性质，在计算第i+1状态的最短路径时，只需要考虑从开始到当前的k个状态值的最短路径和当前状态值到第i+1状态值的最短路径即可，如求t=3时的最短路径，等于求t=2时的所有状态结点x2i的最短路径加上t=2到t=3的各节点的最短路径。

为了纪录中间变量，引入两个变量sigma和phi，定义t时刻状态为i的所有单个路径 (i1, i2, ..., it) 中最大概率值（最短路径）为（前文小修已经有介绍隐马尔科夫相关的概念，如果不清楚可以看一下前面的详解隐马尔可夫模型 (HMM) ）: