任一个英文的纯文本文件,统计其中的单词出现的个数。
import re
fo = open('technology.txt', encoding='gb18030', errors='ignore')
# 把文本变成单个的单词放到list里面
def readFiles(file):
arr = []
lines = file.readlines()
for line in lines:
# 本文中只有, ; . 三个符号所以直接匹配这三个
line = re.sub('[\n,;.]', '', line)
line = line.strip()
if line.strip() != '':
arr.extend(line.split(' '))
return arr
a = readFiles(fo)
def statistics(arr, maax):
json = {}.fromkeys(arr)
for i in json:
json[i] = arr.count(i)
if maax:
jsn = []
for key, val in json.items():
if max(json.values()) == val:
jsn.append((key, val))
return json, jsn
return json
print(statistics(a, True))