jieba 分词
jieba 安装
jieba 的分词算法
主要有以下三种:
- 基于统计词典,构造前缀词典,基于前缀词典对句子进行切分,得到所有切分可能,根据切分位置,构造一个有向无环图(DAG);
- 基于DAG图,采用动态规划计算最大概率路径(最有可能的分词结果),根据最大概率路径分词;
- 对于新词(词库中没有的词),采用有汉字成词能力的 HMM 模型进行切分。
引入 jieba 和语料
(1)精确分词
精确分词:精确模式试图将句子最精确地切开,精确分词也是默认分词。
(2)全模式
全模式分词:把句子中所有的可能是词语的都扫描出来,速度非常快,但不能解决歧义。
3)搜索引擎模式
搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。