结巴分词-深入

最新推荐文章于 2024-08-15 01:55:01 发布

weixin_34015566

最新推荐文章于 2024-08-15 01:55:01 发布

阅读量72

点赞数

文章标签： python

原文链接：https://my.oschina.net/kakablue/blog/181537

版权

2019独角兽企业重金招聘Python工程师标准>>>

- 代码(jieba-master)

- 结构

jieba/

analyse/

finalseg/

__init__.py

cut() 提供DAG的cut操作实现

posseg

Viterbi.py

- 新词发现

- HMM模型的Viterbi算法

__init__.py

- 基本所有逻辑都在这里实现

- 解析算法

- trie：基础

- DAG：用于词图扫描

dict.txt

- trie的基础字典，作者收集大量语料分析得到

- 运行方式

- jieba/__init__.py

* 通过trie和DAG提供长度>2的分词效果

* 通过Viterbi提供对新词的二分词

====================================================

结巴中的trie实现是字典，见代码

def gen_trie(f_name):
     lfreq = {}
     trie = {}
     ltotal = 0.0
     content = open(f_name,'rb').read().decode('utf-8')
     for line in content.split("\n"):
          word,freq,_ = line.split(" ")
          freq = float(freq)
          lfreq[word] = freq
          ltotal+=freq
          p = trie
          for c in word:
               if not c in p:
                    p[c] ={}
               p = p[c]
          p['']='' #ending flag
     return trie, lfreq,ltotal

其中：

trie是一个根据dict.txt生成的前缀树(dict.txt是中文字典，自然生成的trie树也是中文前缀)，末端的叶子以空字符串做标记

注：将dict.txt取几行出来，执行一次gen_trie()就得到形象的结果

lfreq对应trie树，记录整个词的频率评分

ltotal所有频率评分总和

trie树以空间换时间，通过存储字符串的公共前缀来减少查询开销

因此

1.插入、查询都为O(N)

2.内存消耗大26^n

3.对公共前缀重合度小的输入集，trie的效率显得不那么高

优化

1.通过Double Array实现，能大量减少内存使用

====================================================

__init__.py 中的cut()，结巴分词的入口

根据入参选择 trie 或 DAG(默认)

分词过程中都用了 yield 生成器

转载于:https://my.oschina.net/kakablue/blog/181537

weixin_34015566

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
结巴分词-深入

2019独角兽企业重金招聘Python工程师标准>>> ...
复制链接

扫一扫

weixin_34015566 CSDN认证博客专家 CSDN认证企业博客

码龄9年

153: 原创

-: 周排名

205万+: 总排名

134万+: 访问

: 等级

7524: 积分

4838: 粉丝

334: 获赞

18: 评论

2178: 收藏

私信

关注

热门文章

最新评论

京东手机商品详情页技术解密
weixin_m1132442666: 京东到家能不能实现多账号对一个商品批量下单
爬取百度地图 POI 数据
nandou_xinxi: 这个能用吗，我就想简单导出一下公司要的数据
mcollective插件（shell plugins）功能在Linux系统上无所不能
挨-踢菜菜: mco插入的时候，双引号不显示，很是尴尬
明天面试？吓得我赶紧手写了一个Spring
兔子也发飙: 代码过期了吗
用vmware运行简单的引导代码
猿来如此丫: 这个为什么引导程序启动的时候会有乱码？求解答 CODE SEGMENT ASSUME CS:CODE start:mov ax,cs mov es,ax //使附加段和代码段为一个段 mov ss,ax call DispStr DispStr:mov ax,offset BootMessage mov bp,ax //将BootMessage定义的字符串地址的偏移量给bp mov cx,13 //输出字符的个数 mov ax,01301h //AH=13 AL=01， mov bx,000ch // mov dl,0 int 10h //调用BIOS的10H中断，AL=写模式，BH=页码，BL=颜色，CX=字符串长度，DH=行，DL=列，ES:BP=字符串偏移量 ret BootMessage:db "This is my OS" times db 510-($-offset start) dup(0) //将本语句后到510字节的代码段空间用0填充 dw 0aa55h //最后两个字节填入AA55 CODE ENDS END START

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。