上篇文章(python--10行代码搞定词频统计)我们介绍了利用Counter模块轻松搞定词频统计的方法,因为重点是介绍模块的使用,代码显得比较粗糙。
import re,collections
def get_nums(file):
with open (file) as f:
words_box=[]
for line in f:
if re.match(r'[a-zA-Z0-9]*',line):#避免中文影响
words_box.extend(line.strip().split())
return collections.Counter(words_box)
print(get_nums('emma.txt')+get_nums('伊索寓言.txt'))
(注:文件下载地址: