使用Python+NLTK实现英文单词词频统计

本文介绍了如何使用Python和NLTK库进行英文单词的词频统计,包括读取文件、过滤特殊符号、词形还原以及结果写入文件的详细步骤。重点讲解了NLTK的词形还原功能,以应对英文单词的各种形态变化,帮助提升英语学习效率。
摘要由CSDN通过智能技术生成

使用Python+NLTK实现英文单词词频统计

应用场景

本人近来想要提高英语水平,决定从直接看英文书籍开始做起,在选择英文书的时候,我需要了解这本书的词汇量以及词频,这样在遇到生词的时候,我可以有针对性的对那些出现频率高的单词着重记忆。

在真正开始做的时候,发现统计词频并不像想象中那样简单。需要考虑到词形变化,动词、名词、形容词、副词、代词等等,这些词都会在有若干种不同的形式,来表达不同的意思。例如move和moved,这显然应该归为一个词而不应该分为两个词来统计,于是,我们需要对各种形式的单词进行词形还原(lemmatization)。

Fork Me

本项目已在github上开源,大家可以随意fork、下载,欢迎大家指出程序中的错误和不足,共同学习!
https://github.com/Sailingboat1988/wordcounter

参考运行环境

  • Python 2.7.12
  • NLTK 3.2.2
  • Ubuntu 16.04 LTS

流程步骤图

操作流程如下图:

Created with Raphaël 2.1.0 开始 读取文件 过滤特殊符号以及还原常见缩写单词 分词
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值