jieba库概述:
jieba是优秀的中文分词第三方库
-中文文本需要通过分词获得单个的词语
jieba分词的三种模式
精确模式、全模式、搜索引擎模式
-精确模式:把文本精确的切分开,不存在冗余单词。
是把一段文本精确的切割成若干个中文单词,若干个中文单词之间经过组合就精确的还原为之前的文本。其中不存在多余重复的单词。(最常用)
-全模式:把文本中所有可能的词语都扫描出来,有冗余。
全模式是把一段文本中所有可能的词语都扫描出来,可能有一段文本它可以切分成不同的模式或用不同的角度来切分,从而变成了不同的词语,jieba会在全模式下把这些组合全挖掘出来。(会很多重复)
-搜索引擎模式:在精确模式的基础上,对长词再次切分。
常用函数: