内容来源:选自慕课,北理工,嵩天python语言程序设计,适用于小白入门吧,要学好,还任红而道远。
jieba分词是非常重要的中文分词第三方库,其分词原理是:计算汉字之间的关联概率,概率大的组成词组,形成分词结果。
jieba有三种模式:
jieba.lcut(s) #精确模式,返回列表类型的结果;
jieba.lcut(s,cut_all=Ture) #全模式,返回列表类型结果,存在冗余;
jieba.lcut_for_search(S) #搜索引擎模式;
jieba.add_word(w) #向分词词典增加新词w。
案例:
import jieba
txt = open("G:\pycharm\pycharm\cwz.txt", "r", encoding="utf-8").read() #读取文件
excludes = {"item","http","blog","html","sina","com","cn"} #排除掉一些非重要关键词
words = jieba.lcut(txt) #精确模式
counts = {}
for word in words: #for循环,没有出现的词频,计算一次,出现的累加
if len(word) == 1:
continue
else:
counts[word] = counts.get(word,0) + 1
for word in excludes: #如果词在excludes中,则删除掉
del counts[word]
items = list(counts.items()) #将item转换为列表,统计用
items.sort(key = lambda x:x[1], reverse=True) #列表的排序功能
for i in range(50): #提取前50个词,
word, count = items[i]
print("{0:<5}{1:>5}".format(word, count)) #貌似5表示词与词频之间的距离。