使用Python+NLTK实现英文单词词频统计
应用场景
本人近来想要提高英语水平,决定从直接看英文书籍开始做起,在选择英文书的时候,我需要了解这本书的词汇量以及词频,这样在遇到生词的时候,我可以有针对性的对那些出现频率高的单词着重记忆。
在真正开始做的时候,发现统计词频并不像想象中那样简单。需要考虑到词形变化,动词、名词、形容词、副词、代词等等,这些词都会在有若干种不同的形式,来表达不同的意思。例如move和moved,这显然应该归为一个词而不应该分为两个词来统计,于是,我们需要对各种形式的单词进行词形还原(lemmatization)。
Fork Me
本项目已在github上开源,大家可以随意fork、下载,欢迎大家指出程序中的错误和不足,共同学习!
https://github.com/Sailingboat1988/wordcounter
参考运行环境
- Python 2.7.12
- NLTK 3.2.2
- Ubuntu 16.04 LTS
流程步骤图
操作流程如下图: