python结巴分词的问题_python—结巴分词的理解

本文介绍了Python结巴分词的工作原理,包括加载字典生成Trie树以提高效率,以及使用动态规划和HMM模型解决分词歧义。通过实例详细解析了维特比算法在确定最可能状态序列中的应用。
摘要由CSDN通过智能技术生成

Full Mode:Building Trie...,

from C:\Users\Administrator\Desktop\jieba-0.33\jieba\dict.txt

loading model from cache

c:\users\admini~1\appdata\local\temp\jieba.cache

loading model cost 2.80800008774 seconds.

Trie has been built succesfully.

此文/ 为/ 本人/ 的/ 学习/ 笔记/ ,/ 目的/

在于/ ,/ 以后/ 自己/ 复习/ ,/ 如果/ 能/ 帮上/ 正在/ 学习/ 结巴/ 分词/ 的/ 人们/ ,/ 那/ 也/

再好不过/ 。/ 引用/ 俺/ 导师/ 教导/ 我/ 的/ 一句/ 话/ ,/ 毫无/ 章法/ 可言/ ,/ 你/ 受累/ 了/

结巴分词的过程:

0 结巴分词的准备工作

开发者首先根据大量的人民日报训练了得到了字典库、和Hmm中的转移概率矩阵和混淆矩阵。

1. 加载字典, 生成trie树

为什么要加载字典树呢,是因为如果没有字典树,那么扫描将会是一个庞大的工程,有了字典树就可以在该分支上扫描。例如扫描“中国人民银行”(正向最大匹配)先扫描6个字的字典库,找到了“中国人民银行”,然后再去掉一个字变成了“中国人民银”,假如没有字典树的话,就会把所有五个字的字典库搜索一遍。但是现在就不会了,只要把“中国人民”和“中国人民银行”之间的节点搜索一遍就行了,大大的节省了时间。有句话叫以空间换时间,最适合用来表达这个意思。

2. 给定待分词的句子, 使用正则获取连续的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值