目录
任务描述:
- 在理解中文文本的语义时需要进行分词处理,分词算法包括字符串匹配算法,基于统计的机器学习算法两大类。本案例在前文将说明常用分词库及其简单应用,之后会通过中文分词的例子介绍和实现一个基于统计的中文分词方法——HMM模型,该模型能很好地处理歧义和未登录词问题,应用在jieba等分词器中。此外,HMM模型得到的是概率图,还需要viterbi算法求解最大概率的路径得到最终分词结果。通过预处理数据、训练HMM模型得出概率分布,经viterbi算法对句子的每个字符进行状态标注,最后根据状态序列实现句子分词。
运行环境
Python3.7环境下测试了本教程代码。需要的第三方模块和版本包括:
joblib=0.14.1
常用分词库及简单应用
# 安装指定版本的分词库,如果jupyter安装出现问题,请使用命令行安装。
# !pip install jieba=