jieba分词
文章平均质量分 65
WeiHaixin931
真相会使你自由
展开
-
jieba分词之二、cut
1.get_DAG(sentence)函数DAG是有向无环图,结巴分词中的DAG的数据结构是dict,元素的key是int,value是int列表下面部分内容引用自http://www.xuebuyuan.com/1547637.html举一个例子,比如sentence 是 "国庆节我在研究结巴分词",对应生成的DAG是这样的:{0: [0, 1, 2], 1: [1],原创 2014-04-03 14:14:29 · 4240 阅读 · 0 评论 -
jieba分词之——1、initialize & load_userdictr
"结巴"中文分词是Python中文分词组件,作者从三个方面描述jieba中文分词的算法1. 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)2. 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合3. 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法 我原创 2014-04-03 14:10:50 · 7979 阅读 · 0 评论