使用Python+NLTK实现英文单词词频统计

最新推荐文章于 2024-06-06 19:14:59 发布

飞翔的荷兰人号2017

最新推荐文章于 2024-06-06 19:14:59 发布

阅读量2.3w

点赞数 19

分类专栏： python 文章标签： python nltk 词频统计词形还原

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/heykid/article/details/62424513

版权

本文介绍了如何使用Python和NLTK库进行英文单词的词频统计，包括读取文件、过滤特殊符号、词形还原以及结果写入文件的详细步骤。重点讲解了NLTK的词形还原功能，以应对英文单词的各种形态变化，帮助提升英语学习效率。

摘要由CSDN通过智能技术生成

使用Python+NLTK实现英文单词词频统计

使用PythonNLTK实现英文单词词频统计

应用场景

本人近来想要提高英语水平，决定从直接看英文书籍开始做起，在选择英文书的时候，我需要了解这本书的词汇量以及词频，这样在遇到生词的时候，我可以有针对性的对那些出现频率高的单词着重记忆。

在真正开始做的时候，发现统计词频并不像想象中那样简单。需要考虑到词形变化，动词、名词、形容词、副词、代词等等，这些词都会在有若干种不同的形式，来表达不同的意思。例如move和moved，这显然应该归为一个词而不应该分为两个词来统计，于是，我们需要对各种形式的单词进行词形还原（lemmatization）。

Fork Me

本项目已在github上开源，大家可以随意fork、下载，欢迎大家指出程序中的错误和不足，共同学习！
https://github.com/Sailingboat1988/wordcounter

参考运行环境

Python 2.7.12
NLTK 3.2.2
Ubuntu 16.04 LTS

流程步骤图

操作流程如下图：

最低0.47元/天解锁文章

飞翔的荷兰人号2017

关注

19
点赞
踩
83

收藏

觉得还不错? 一键收藏
7
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。