非科班小白,断断续续学习一些python相关的知识,做个简单记录,方便以后查阅,代码中的filename文件需要在py文件同一个文件夹内,另外chinamap这个图片也需要在同意文件夹内。图片需要白色背景
import jieba
from wordcloud import WordCloud
from scipy.misc import imread
###排除词库
excludes = ["我们"]
#打开读取关闭文件
filename = 'zfgzbg2018.txt' #这里的filename是变量
file = open(filename,"r",encoding="utf-8")
txt = file.read()
file.close()
#分词,jieba返回的是列表类型,所以words是一个列表
words = jieba.lcut(txt)
###词频统计,计数
counts={}
for word in words:
if len(word)==1: #排除单个字符的分词结果
continue
elif word in counts:
counts[word] = counts[word] + 1
else:
counts[word] = 1
'''
#或者elif和else可以用下列简短形式表达
else:
counts[word] = counts.get(word,0) + 1