今天来试一下如何利用 python 来统计文本中每个英文单词出现的次数
列出了两种方法,一种是直接调用 Counter 函数,核心代码一行搞定
另一种是手写的利用 python 中的字典来统计
1.首先将文本文件导入
文本是长这样子的
f = open(r"C:\Users\aaa\Desktop\new.txt",encoding="utf-8")
a = f.read().split()
open 文本之后,将文本 read 进来,然后用 split 将单词利用空格切分开
输出的是一个列表,也就是将文本文件变成单词的列表
2. 利用 Counter 函数统计词频
这个方法很简单,只需要用一行代码即可搞定
print(collections.Counter(a))
这样就直接统计好词频,并利用字典的形式排序好了再输出
当然,Counter 函数在 collections 包里,所以使用之前要先导包:import collections
3.手写字典统计词频
如果你觉得直接调用函数没有意思的话,可以自己手写字典来统计:key 是单词,value 是单词出现次数
先创建一个字典,然后遍历刚刚取出的单词列表,接着做一个判断:
如果字典中 key 已经出现了这个单词,那么它对应的 value ,也就是出现次数就 +1
如果这个单词没出现过,就直接 插入这个单词及 value 为 1 到 字典中
代码如下:
words_dic = {}
for k in a:
if k in words_dic:
words_dic[k] += 1
else:
words_dic[k] = 1print(words_dic)
统计结果:
4.完整代码
import collections
f = open(r"C:\Users\aaa\Desktop\new.txt",encoding="utf-8")
a = f.read().split()
print(a)
print(collections.Counter(a))
words_dic = {}
for k in a:
if k in words_dic:
words_dic[k] += 1
else:
words_dic[k] = 1
print(words_dic)
f.close()