Python 练习册,每天一个小程序(0006)

详细题目在https://github.com/Yixiaohan/show-me-the-code上。此次是0006题,统计出一个文件夹下每个文本文件最为重要的词。

总的思路是读取文件目录,将所有文件加至列表中,然后对列表每个文件中的文本进行过滤,使用字典计算词出现次数,然后对字典排序,将出现次数最多的词存到一个列表中,最后输出该列表。

# -*- coding: UTF-8 -*-
import os
import re

#将文件夹中的文件放入一个列表中,如果是子文件夹则忽略。
def getFile(directory):
    list = os.listdir(directory)
    fileList = []
    for item in list:
        filepath = os.path.join(directory,item)
        if not os.path.isdir(filepath):
            fileList.append(filepath)
    return fileList

#对于列表中的每个txt文件,都读取文件内容
#然后使用正则表达式过滤除了英文字母外所有字符,然后将其切割为一个英文单词列表
#接着将单词变为小写,使用字典来计算单词出现次数
#最后将字典按大到小排序,然后取字典中的第一个英文单词,加入到一个列表中,最后返回该列表
def Calculator(fileList):
    importantWord = []
    for temp in fileList:
        with open(temp, 'r') as file:
            word = re.sub(r'[^a-zA-Z]',' ',unicode(file.read().split()))
            word = word.split()

            word_dict = {}
            for item in word:
                item = item.lower()
                if not item in word_dict:
                    word_dict[item] = 1
                else :
                    word_dict[item] += 1
        word_dict = sorted(word_dict.iteritems(),key=lambda d:d[1],reverse=True)
        theWord, value = word_dict[0]
        importantWord.append(theWord)
    return importantWord

#打印每个文本文件最重要的词
list = getFile('txt')
Calculator(list)
for item in Calculator(list):
    print item
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值