这是要统计词频的一个简单文本
这是简单的代码块
import re
with open('word.txt','r') as f:
f=f.read()
r=re.split('\W+', f) #“\W+”是除了英文以外的格式(把空格回车都切割掉)
d=dict().fromkeys(r,0)
for x in r:
d[x]+=1
print(d)
如果我们用collections,过程会简单很多,并且效率可以提高好多倍。
import re
from collections import Counter
with open('word.txt','r') as f:
f=f.read()
c=Counter(re.split('\W+',f))
print(c )