云计算 5
李小福 2 nr
创新办 3 i
easy_install 3 eng
好用 300
韩玉赏鉴 3 nz
示例代码
import jieba
import jieba.posseg as pseg
test_sent ="李小福是创新办主任也是云计算方面的专家;"
test_sent +="例如我输入一个带“韩玉赏鉴”的标题,在自定义词库中也增加了此词为N类型"
words = jieba.cut(test_sent)print("/".join(words))#加载自定义字典
jieba.load_userdict("userdict")
result = pseg.cut(test_sent)print("/".join([word.word for word in result]))#输出#李小福/是/创新/办/主任/也/是/云/计算/方面/的/专家/;/例如/我/输入/一个/带/“/韩玉/赏鉴/”/的/标题/,/在/自定义词/库中/也/增加/了/此/词为/N/类型#李小福/是/创新办/主任/也/是/云计算/方面/的/专家/;/例如/我/输入/一个/带/“/韩玉赏鉴/”/的/标题/,/在/自定义词/库中/也/增加/了/此/词/为/N/类型
import jieba.analyse
t =open("test",'r', encoding='utf-8')
readlines = t.readlines()for line in readlines:print(jieba.analyse.extract_tags(line,topK=10))
词性标注
标注句子分词后每个词的词性,采用和ictclas兼容的标记法
import jieba.posseg as pseg
cut = pseg.cut("我爱北京天安门")for c in cut:print(c.word+"/"+c.flag)#输出
我/r
爱/v
北京/ns
天安门/ns