文章目录
🥝🥝Jieba分词
Python中的分词模块有很多,他们的功能也都是大同小异,我们安装的Jieba
分词 是当前使用的最多的类型。
🥝🥝Jieba 分词的原理
Jieba
分词依靠中文词库,结合了基于规则和基于统计这两类方法。首先基于前缀词典进行词图扫描,前缀词典是指词典中的词按照前缀包含的顺序排列。如果将词看作节点,词和词之间的分词符看作边,那么一种分词方案则对应着从第一个字到最后一个字的一条分词路径。
因此,基于前缀词典可以快速构建包含全部可能分词结果的有向无环图,这个图中包含多条分词路径,有向是指全部的路径都始于第一个字、止于最后一个字,无环是指节点之间不构成闭环。基于标注语料,使用动态规划的方法可以找出最大概率路径,并将其作为最终的分词结果。
🥝🥝Jieba 分词的三种模式
结巴分词的分词模