基于HMM 隐马尔可夫模型实现中文分词，有数据代码可直接运行

甜辣uu

于 2022-05-18 10:01:59 发布

阅读量623

点赞数

分类专栏：自然语言处理-nlp-NLP 文章标签：中文分词算法自然语言处理分词 python

本文链接：https://blog.csdn.net/qq_38735017/article/details/124835870

版权

89 篇文章 80 订阅 ¥59.90 ¥99.00

订阅专栏

本文档介绍了如何使用HMM模型和Viterbi算法进行中文分词，通过Python实现并展示了不同分词库的效果，如thulac、snownlp和pynlpir。在训练HMM模型后，计算了验证集的P、R、F值，以评估模型性能。

摘要由CSDN通过智能技术生成

任务描述：

在理解中文文本的语义时需要进行分词处理，分词算法包括字符串匹配算法，基于统计的机器学习算法两大类。本案例在前文将说明常用分词库及其简单应用，之后会通过中文分词的例子介绍和实现一个基于统计的中文分词方法——HMM模型，该模型能很好地处理歧义和未登录词问题，应用在jieba等分词器中。此外，HMM模型得到的是概率图，还需要viterbi算法求解最大概率的路径得到最终分词结果。通过预处理数据、训练HMM模型得出概率分布，经viterbi算法对句子的每个字符进行状态标注，最后根据状态序列实现句子分词。

Python3.7环境下测试了本教程代码。需要的第三方模块和版本包括：
joblib=0.14.1

# 安装指定版本的分词库，如果jupyter安装出现问题，请使用命令行安装。
# !pip install jieba=

了解本专栏

关注

专栏目录