统计出多个文档里最多的单词

#-*- coding:utf-8 -*-
import re
import os

def get_files(path):
    filepath = os.listdir(path)
    files = []
    for fp in filepath:
        fppath = path + '/' + fp
        if(os.path.isfile(fppath)):
            files.append(fppath)
        elif(os.path.isdir(fppath)):
            files += get_files(fppath)
    return files

def get_important_word(files):
    worddict = {}
    for filename in files:
        f = open(filename, 'rb')
        s = f.read()
        words = re.findall(r'[a-zA-Z0-9]+', s)
        
        for word in words:
            worddict[word] = worddict[word] + 1 if word in worddict else 1
        f.close()
    wordsort = sorted(worddict.items(), key = lambda e:e[1], reverse = True)
    return wordsort

if __name__ == '__main__':
    files = get_files('./get')
    print files
    wordsort = get_important_word(files)
    maxnum = 1
    #当有多个最大值时
    for i in range(len(wordsort) - 1):
        if wordsort[i][1] == wordsort[i+1][1]:
            maxnum += 1
        else:
            break
    for i in range(maxnum):
        print wordsort[i]
    

可以将./get目录下的所有文件夹和文档下的的单词全部统计

结果如下:



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值