Python: 统计英文纯文本文件中的单词出现次数
在日常的数据分析、自然语言处理等领域,需要对文本进行单词的统计分析。本篇文章介绍如何使用Python统计一个英文的纯文本文件中单词的出现次数。
实现思路:
- 打开指定路径的文件,使用read()方法读取文本内容。
- 使用split()方法将文本内容根据空格分割成单个的字符串,并将它们存储到一个列表中。
- 遍历列表,使用Python内置的dict(字典)类型进行单词出现次数的统计。
- 输出每个单词以及出现的次数。
下面是完整的代码实现:
filepath = "text.txt"
with open(filepath, "r") as f:
text = f.read()
words = text.split()
counts = {}
for word in words:
if word in counts:
counts[word] += 1
else:
counts[word] = 1
for word, count in counts.items():
print(f"{word}: {count}")
代码说明:
- 首先打开指定路径的文件,并使用read()方法读取文本内容。
- 使用split()方法将文本内容根据空格分割成单个的字符串,并将它们存储到一个列表中。
- 遍历列表,使用dict(字典)类型进行单词出现次数的统计。如果字典中已经存在该单词,则将对应的值加1,否则添加新键值对。
- 遍历字典,输出每个单词以及出现的次数。
以上就是使用Python实现了统计英文纯文本文件中单词出现次数的方法。欢迎大家试用,并在实际应用中进行改进和优化。