首先下载英文原版小说,TXT格式,内容如下
格式非UTF-8,是Unicode格式的
英文每个单词之间都有空格,所以不需要进行分词,可以直接进行词频统计
def get_text():
f = open('傲慢与偏见.txt','r',encoding='unicode_escape')
text = f.read().lower()
for i in '!@#$%^&*()_¯+-;:`~\'"<>=./?,':
text = text.replace(i,' ')
return text.split()
ls = get_text()
counts = {}
print(len(ls))
for i in ls:
counts[i] = counts.get(i,0) + 1
iteams = list(counts.items())
print(iteams)
iteams.sort(key=lambda x:x[1],reverse=True)
for i in iteams[0:10]:
print(i)
结果不便粘贴,所以截图表示