练习006

第 0006 题:你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都是英文,请统计出你认为每篇日记最重要的词。

代码006.py

#!/usr/bin python 
#coding:utf-8
'''
Created on 2016年4月25日
@author: zxc
'''
import os,re
from collections import Counter
FILE_PATH=r'F:\Python\txt'
stop_word = ['the', 'in', 'of', 'and', 'to', 'has', 'that', 's', 'is', 'are', 'a', 'with', 'as', 'an','for']
def getCounter(i):
    pattern = r'[A-Za-z]+|\$?\d+%?$'
    print i 
    i = os.path.join(FILE_PATH,i)
    print i 
    f=open(i,'r')
    r = re.findall(pattern, f.read())
    return Counter(r)    

def run(FILE_PATH):  
    total_counter = Counter()
    for i in os.listdir(FILE_PATH):
        if os.path.splitext(i)[1] == '.txt':
            #print os.path.splitext(i)[1] 
            total_counter += getCounter(i)
    for i in stop_word:
        total_counter[i] = 0
    print total_counter.most_common()[0][0]            

if __name__=="__main__":
    run(FILE_PATH)

( 写于2016年4月27日,http://blog.csdn.net/bzd_111

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值