jieba结巴分词--关键词抽取_jieba分词的原理（文末有维特比算法讲解）

最新推荐文章于 2021-02-27 11:43:02 发布

weixin_39880301

最新推荐文章于 2021-02-27 11:43:02 发布

阅读量352

点赞数

文章标签： jieba结巴分词--关键词抽取 python3.7中安装结巴分词如何在jieba分词中加自定义词典

本文介绍了jieba分词的基础知识，包括分词流程、统计词典、前缀词典、有向无环图（DAG）的构建，以及动态规划和HMM（隐马尔科夫模型）在分词中的应用，特别是如何使用Viterbi算法处理未收录词。文章适合初学者，通过实例解析帮助理解jieba分词的内部工作原理。

摘要由CSDN通过智能技术生成

前言

实习期间在做一个专利分析的项目，用到了文本处理的方法，大部分文本分析类的项目应该都离不开分词这个最基础的操作吧，我在做项目之前，在网上找了一些例子，搞清楚分词的代码处理流程，就直接在我的项目里用了，当然，我认为这应该是正确的操作，不可能一个项目的开始要等你完全搞懂所运用的理论部分。不过，等项目流程跑完，我还是对此耿耿于怀，于是花了一天时间调研学习了一下jieba分词的理论部分，在此做个总结，也是梳理一遍学习的内容，如果有理解不够透彻的地方，欢迎指正。

这篇文章会站在一个初学者的角度来看待结巴分词，欢迎正在学习的同学一起交流。

jieba分词的流程概括

这部分我认为放在开头来看，会很迷惑，不懂的同学看完后还是没有任何感觉，但是我觉得可以在研究具体细节的同时来对照一下这部分内容，会让你在学习的过程中不会犯迷糊。看完整个流程后再返回来思考一遍，条例会更加清晰。

依据统计词典（模型中这部分已经具备，也可自定义加载）构建统计词典中词的前缀词典。
依据前缀词典对输入的句子进行DAG（有向无环图）的构造。
使用动态规划的方法在DAG上找到一条概率最大路径，依据此路径进行分词。
对于未收录词（是指不在统计词典中出现的词，未收录词怎么识别可以看完第三部分之后思考一下），使用HMM(隐马尔克夫模型)模型，用Viterbi（维特比）算法找出最可能出现的隐状态序列。

注：HMM的理解可以查看李航的统计学习方法，它主要分为三个问题的解决来讲解HMM，如果，你着急搞明白在jieba分词中怎么使用的HMM，可以着重看第三个预测问题。

统计词典

统计词典在jieba包的dict.txt文件中，是开发者已经统计好的词典

dict.txt里的内容

dict.txt里第一列代表的是词语，第二列是词频，第三列是词性，我们主要用到前两列信息，词性这部分，这里没有涉及。

前缀词典

当程序运行的时候，它会加载统计词典生成前缀词典，前缀词典是表示什么的呢，我们举个简单的例子。

比如统计词典中含有如下词语

我  123
在  234
学习  456
结巴  345
分词  456
结巴分词

最低0.47元/天解锁文章

weixin_39880301

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。