Jieba 是一个强大的分词库,完美支持中文分词,做为最好的 Python 中文分词组件。
安装:pip install jieba
特点:支持三种分词模式:
1、精确模式,试图将句子精确的分开,适用于文本分析。
cut_all参数默认为False,所有使用cut方法时默认为精确模式。
import jieba strings = '今天天气真好'
seg = jieba.cut(strings,cut_all=False)
print(','.join(seg))
output : 今天天气,真,好
2、全模式,把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。
cut_all参数为True
import jieba strings = '今天天气真好'
seg = jieba