基于HMM 隐马尔可夫 模型实现中文分词,有数据代码 可直接运行

本文档介绍了如何使用HMM模型和Viterbi算法进行中文分词,通过Python实现并展示了不同分词库的效果,如thulac、snownlp和pynlpir。在训练HMM模型后,计算了验证集的P、R、F值,以评估模型性能。
摘要由CSDN通过智能技术生成

目录

任务描述:

运行环境

常用分词库及简单应用

 导包

 数据处理

标记字符状态

使用HMM模型+viterbi算法做为分词模型。

HMM模型

Viterbi算法

分词模型

分词模型训练

验证集准确率

分词模型预测结果

所有的数据代码:

任务描述

  • 在理解中文文本的语义时需要进行分词处理,分词算法包括字符串匹配算法,基于统计的机器学习算法两大类。本案例在前文将说明常用分词库及其简单应用,之后会通过中文分词的例子介绍和实现一个基于统计的中文分词方法——HMM模型,该模型能很好地处理歧义和未登录词问题,应用在jieba等分词器中。此外,HMM模型得到的是概率图,还需要viterbi算法求解最大概率的路径得到最终分词结果。通过预处理数据、训练HMM模型得出概率分布,经viterbi算法对句子的每个字符进行状态标注,最后根据状态序列实现句子分词。

运行环境

Python3.7环境下测试了本教程代码。需要的第三方模块和版本包括:
joblib=0.14.1

常用分词库及简单应用

# 安装指定版本的分词库,如果jupyter安装出现问题,请使用命令行安装。
# !pip install jieba=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

甜辣uu

谢谢关注再接再厉

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值