文章词频统计

1、词频统计,输出频次最高的中文字符及频次,不包括标点符号

#打开原文件,小女孩.text

fi=open('小女孩.text','r') //打开门小女孩文件,读

fo=open('py-1.txt','w') //写

txt=fi.read()

d={} #定义一个字典

exclude='!@#$%^&*()_+=-{}[]:;"'.,/\|<>,。《》'      //包含所有文章中出现的字符,也可全打一边

for word in txt :

      if word in exclude:

         continue                                  //如果word在exclude里,就跳出循环

     else:

            d[word]=d.get(word,0)+1      //否则返回默认值,+1进行自增长

ls=list(d.items())                                    //字典没有顺序,转化成列表类型

ls.sort(key=lambda x:x[1],reverse=true) //排序,lambda是固定值,reverse参数:reverse=true表示从大到小排序

print(ls[:10])                                      //输出前十个频次排名

fo.write('{} : {}'.format(ls[0][0],ls[0][1]))     //{} :{}对应 ls[0][0],ls[0][1]

fo.close()

fi.close()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值