【中文分词】隐马尔可夫模型HMM

浅唱书令

已于 2023-06-01 14:17:38 修改

阅读量161

点赞数

分类专栏：人工智能文章标签：中文分词算法自然语言处理

于 2016-12-12 13:37:00 首次发布

本文链接：https://blog.csdn.net/keyboardlabourer/article/details/130980556

版权

人工智能专栏收录该内容

46 篇文章 9 订阅 ¥19.90 ¥99.00

订阅专栏

本文介绍了如何使用隐马尔可夫模型(HMM)解决中文分词问题。通过将分词视为序列标注问题，HMM可以表示为状态序列，其中B、E、M和S分别代表词的开始、结束、中间和独立成词。文章详细阐述了HMM的模型参数、概率计算、学习和解码问题，并讨论了Jieba分词库中HMM的实现，包括Viterbi算法的调整和概率矩阵处理。同时，指出了HMM分词存在的局限性，如齐次Markov性和观测独立性假设导致的泛化能力有限。

摘要由CSDN通过智能技术生成

Nianwen Xue在《Chinese Word Segmentation as Character Tagging》中将中文分词视作为序列标注问题(sequence tagging problem)，由此引入监督学习算法来解决分词问题。

1. HMM

首先，我们将简要地介绍HMM(主要参考了李航老师的《统计学习方法》)。HMM包含如下的五元组：

状态值集合\(Q=\{q_1, q_2, \cdots, q_N\}\)，其中\(N\)为可能的状态数；
观测值集合\(V=\{v_1, v_2, \cdots, v_M\}\)，其中\(M\)为可能的观测数；
转移概率矩阵\(A=\left[ a_{ij} \right]\)，其中\(a_{ij}\)表示从状态\(i\)转移到状态\(j\)的概率；
发射概率矩阵(在[2]中称之为观测概率矩阵)\(B=\left[ b_{j}(k) \right]\)，其中\(b_{j}(k)\)表示在状态\(j\)的条件下生成观测\(v_k\)的概率；
初始状态分布\(\pi\).

一般地，将HMM表示为模型\(\lambda = (A, B, \pi)\)，状态序列为\(I\)，对应测观测序列为\(O\)。对于这三个基本参数，HMM有三个基本问题：

概率计算问题，在模型\(\lambda\)下观测序列\(O\)出现的概率；
学习问题，已知观测序列\(O\)，估计模型\(\lambda\)的参数，使得在该模型下观测序列\(P(O|\lambda)\)最大；

了解本专栏

浅唱书令

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【中文分词】隐马尔可夫模型HMM

Nianwen Xue在《Chinese Word Segmentation as Character Tagging》中将中文分词视作为序列标注问题(sequence tagging problem)，由此引入监督学习算法来解决分词问题。1. HMM首先，我们将简要地介绍HMM(主要参考了李航老师的《统计学习方法》)。HMM包含如下的五元组：状态值集合\(Q=\{q_1, q_2, \...
复制链接

扫一扫