python核心教程：用Python如何统计文本文件中的词频？

最新推荐文章于 2024-07-30 07:25:40 发布

haoxuan10

最新推荐文章于 2024-07-30 07:25:40 发布

阅读量8.5k

点赞数 7

分类专栏： python 文章标签：程序员编程语言 python

本文链接：https://blog.csdn.net/haoxuan10/article/details/103438088

版权

本文介绍如何使用Python统计文本文件中的词频，适用于面试中的常见问题。通过读取文本、切分单词（考虑空格和标点符号）、使用defaultdict统计词频，给出一个完整的Python入门级实践示例。

摘要由CSDN通过智能技术生成

如何用python统计一个纯文本文件中的词频？这是我每次面试的时候都会问的一个问题。对于有些经验的程序员来说，这是一个很简单的问题。但实际情况是，很多面试者都不能很好甚至不能解决这个问题。

对文本做词频统计在爬虫抓取了数据后对数据做分类、去重等都有应用，算是一个数据处理的基本功能。

这里我们以英文内容为例来解决这个问题，而中文还涉及到文本的编码和分词。
读取文本文件

python读取文本很简单：

#读取整个文件的内容：
text = open('file.txt').read()
#按行读取文本，并返回一个list，每一行是list的一个item
lines = open('file.txt').readlines()

切分单词

英文行文以空格和标点符合来分隔单词，我们切分单词也以空格和标点符号来且分。但大多之考虑到空格而忽略了标点符号。英文中标点符合是直接挨着单词的，只以空格分割，会把表达符号也分到单词里面去。如下文本：

Google introduced its TPU at Google I/O 2016. Distinguished hardware engineer – and top MIPS CPU architect – Norm Jouppi in a blog post said Google had been running TPUs in its data centers since 2015 and that the specialized silicon delivered “an order of magnitude better-optimized performance per watt for machine learning.”

# 仅仅以空格切分：
words = text.split

最低0.47元/天解锁文章

haoxuan10

关注

7
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录