1、词频统计,输出频次最高的中文字符及频次,不包括标点符号
#打开原文件,小女孩.text
fi=open('小女孩.text','r') //打开门小女孩文件,读
fo=open('py-1.txt','w') //写
txt=fi.read()
d={} #定义一个字典
exclude='!@#$%^&*()_+=-{}[]:;"'.,/\|<>,。《》' //包含所有文章中出现的字符,也可全打一边
for word in txt :
if word in exclude:
continue //如果word在exclude里,就跳出循环
else:
d[word]=d.get(word,0)+1 //否则返回默认值,+1进行自增长
ls=list(d.items()) //字典没有顺序,转化成列表类型
ls.sort(key=lambda x:x[1],reverse=true) //排序,lambda是固定值,reverse参数:reverse=true表示从大到小排序
print(ls[:10]) //输出前十个频次排名
fo.write('{} : {}'.format(ls[0][0],ls[0][1])) //{} :{}对应 ls[0][0],ls[0][1]
fo.close()
fi.close()