Jieba分词的使用方法
来源:chinese-nlp
等我看完整本后,会写一个总结,再把PDF上传的。
import jieba
import jieba.posseg as psg
from collections import Counter
content = "今天下雨了,所以不用去跑步了,真开心!"
# 精准分词:将橘子最精确的切开,精确分词也是默认分词
segs_1 = jieba.cut(content, cut_all=False)
print("/".join(segs_1))
# 全模式:把句子中所以可能是的词语都扫描出来,但不能解决歧义
segs_3 = jieba.cut(content, cut_all=True)
print("/".join(segs_3))
# 搜索引擎模式:对长词进行切分,提高召回率,适合于搜索引擎分词
segs_4 = jieba.cut_for_search(content)
print("/".join(segs_4))
# 用lcut生成list:jieba.lcut对cut的结果进行了封装,生成了list集合
segs_5 = jieba.lcut(content)
print(segs_5)
# 获取词性,进行词性标注
print([(x.word, x.flag) for x in psg.lcut(content)])
# 并行分词:为文本按行分隔后,分配到多个python进程并行分词
# jieba.enable_parallel(1) #开启并行分词,参数为并行进程数
# jieba.disable_parallel() #关闭
# 获取分词结果中词列表的top n
t