python统计汉字词频

# -*- coding: utf-8 -*-
"""
Created on Tue Apr 22 17:25:47 2014

@author: lifeix
"""

import sys,re  
  
reload(sys)   
sys.setdefaultencoding('utf8')  
txt = open('/home/lifeix/xiaoshuo1.txt','r').read()  
wfile=open('/home/lifeix/result.txt','w')  
  
  
r = re.compile('[\x80-\xff]+')  
m = r.findall(txt)  

dict={}  
z1 = re.compile('[\x80-\xff]{3}')  
z2 = re.compile('[\x80-\xff]{4}')  
z3 = re.compile('[\x80-\xff]{6}')  
z4 = re.compile('[\x80-\xff]{8}')  
for i in m:  
    x = i.encode('utf8')  
    i = z1.findall(x) 
  
    for j in i:  
          
        if (j in dict):  
            dict[j]+=1  
        else:  
            dict[j]=1  
              
              
dict=sorted(dict.items(), key=lambda d:d[1],reverse=True)  
for a,b in dict:  
    if b>0:  
        wfile.write(a+','+str(b)+'\n')  
wfile.close()
    
f = open('/home/lifeix/result.txt','r')
count = 0
for line in f.readlines():
    if count%10 == 0:
        print '\n'
    line = line[0:len(line) - 1]
    print "%s "%line,
    count = count + 1
f.close()


  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值