在命令行输入 pip intall jieba安装jieba第三方库
jieba是优秀的中文分词第三方库,需要额外安装
提供三种分词模式
原理:
利用一个中文词库,确定汉字之间的关联概率
汉字之间概率大的组成词语,形成分析结果
除了分词,用户还可以添加自定义的词组
函数 | |
jieba.lcut(s) | j精确模式,返回一个列表类型的分词结果,没有冗余 >>>jieba.lcut("我喜欢学习") >>>['我','喜欢','学习'] |
jieba.lcut(s,cut_all=True) | 全模式,返回一个列表类型的分词结果,存在冗余>>> jieba.lcut("中国是一个伟大的国家",cut_all=True) ['中国', '国是', '一个', '伟大', '的', '国家'] |
jieba.lcut_for_search(s) | 搜索引擎模式,返回一个列表类型的分词结果,存在冗余(会把较长字符再次分词) |
jieba.add_word(w) | 向分词词典中增加新词w |