python 英语词频统计软件_教你背单词 | 利用python分析考研英语阅读并生成词频降序表...

本文介绍了一种利用Python进行英语词频统计的方法,通过分析历年考研阅读真题,生成词频降序表,帮助考生高效背诵中高频词汇。借助自然语言处理库NLTK,进行文本预处理、分词、过滤,再用Counter模块统计词频,最终结合墨墨背单词APP,实现个性化单词学习,提升考研英语复习效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

作为一名19考研er

距离我考研结束已经过去大半年

想和大家分享一下当初背单词的骚操作

众所周知

考研英语“得阅读者得天下”

d26af81544917306da867b0cb94c4b17.png

提升词汇量又是提高阅读的关键

那么问题来了?

大家都是怎么背单词的呢

从A到Z拿起砖头书就开干 

abandon abandon 放弃... ...

1fe6b3dd6b949986c0ab264db3f89aa5.png

又或是拿起《考研大纲词汇5500》

背了前面忘了后面

841773ed35528ce9564aba81ca7469f4.png

也不能说不对...

只是考研时间争分夺秒

这样 太慢了!

deb80c1efb4afab5bd1c55b5164dfcdb.png

还有一个问题

你背的单词你确定它考吗?

你考研大纲5500有多少零频词你知道吗?

一个生词死磕半天

却发现他从来没在真题中出现过

难受吧

1207d1100304e08f72f841117fea1afc.png

既然要应试

就要有应试该有都样子

考研阅读如此重要

那最快得办法就是直接背阅读里的单词

背阅读里的中高频词

”啥?“

”我一篇阅读都还没做过现在直接拿起阅读看”

“到时候做起真题岂不是被剧透一脸!”

646e46aa062a3867f0ce2f1745222624.png

不不不,还没说完

下面就来教你怎么高效的背阅读里的单词

180559247e27a30d2306f999a67fe7bb.png

首先我设想的程序是这样的

输入:历年的阅读真题

输出:考研真题词频降序表

啥是词频降序表我先解释一下

7cef46747ab4798f0824bb24033026b0.png

如图,左边是历年真题出现单词

右边是此单词的频数,也就是出现的次数

整张表对出现次数降序排列下来

就叫作词频降序表

程序的设计思路是这样的

(看不懂就直接跳过这里吧,文末可直接获取词频表)

1c738c4ebc2c9045fc9fc2bab26b174c.png

先下载好历年的真题

然后我挑选了其中的阅读和完形部分

统一整理成一份txt格式的英文文本数据

706cf66ba8833a3668712fa28d56a42d.png

数据准备好了

接下来开始编写程序

我采用python常用的自然语言处理包

NTLK(Natural Language Toolkit)

在控制台使用pip install nltk命令安装NLTK库

执行如下python语句下载语料库

b5517320379a5d47b9b9368be5d8f261.png

界面弹出包管理界面

b2d07c33301f24a29c8d173250eca119.png

选择all然后Download就行

准备工作完毕就可以正式的编写代码

首先用正则表达式切分特殊字符

比如逗号、分号、冒号等

pat_letter = re.compile(r'[^a-zA-Z \']+')

还有特殊的缩写单词

比如

can't ---> can not

I've--->I have

...

同样编写它们的正则规则

67d0518b6a4939d0a2d30be1d3cde48c.png

紧接着对文本进行分词操作

3eaf44e7ce565a4cae1567f671144bd4.png

# 分词处理words = nltk.word_tokenize(text)

再对无意义的停用词和初级词汇进行过滤

停用词可以理解为无实意的虚词,如of、is等

eaffb6d796d28c517195be7759861fe0.png

(NLTK英文停用词库)

初级词汇就是apple、hello这种,都是需要剔除的

剔除的依据采用BNC采用词汇

我们从中进行挑选出部分初级词汇进行过滤

07174fe3112739f90e92bdf47abf6c73.png

(BNC常用词汇表)

将停用词表和初级词汇表整合成一个过滤词表

用if语句将属于过滤词表的单词通通过滤掉

3cfe046dd6786db44b498ee0b8d94274.png

下一步,词形还原

gril,grils这种同一个词只是形式不同

我们都需要在保持词性不变的前提下对这些词进行还原

ae4888c6d242a954a7eca3a3c8b1bd26.png

阅读的词汇处理干净后

就要对词语进行词频的统计和排序

直接使用python提供的collections.Counter()模块

对集合元素进行统计

 # 返回单词和词频 并排序collections.Counter(words).most_common()

最后导出成CSV格式

就得到了我们想要的词频降序表

2d47ca29a61d84af7c86ef33437707bc.png

对词频表进行初步分析

我们可以发现

有2013个单词

只出现一次!

bbdc0a13e70bf90b374bc65c76ff4985.png

而真正考研反复出现的单词

仅仅只有两千多个

我们只要按照频率从高往低背

就可以率先解决阅读中的大部分生词

那么问题又来了

难道以后背单词都要对着excel背吗

没有中文、没有例句、没有发音?

打死我也不会去用的

1b796cac0e58154fc6988f64955389d7.png

误会了

到这里还没结束

用过墨墨背单词的一定知道

有一个功能是添加自定义词库

fb2bac05159fa11792ddbbcd1993185c.png

进去后的界面如下

复制词汇表的第一列单词

然后粘贴进来

6f1cfeeece07489316268e724ba9a4c9.png

保存后即可生成自定义的单词本

070722a189571e044adb5bb78205ec1f.png

墨墨背单词提供了单词的

发音、翻译、例句、记忆方法等功能

并且能够根据艾宾浩斯曲线安排复习计划

将词频降序表与墨墨背单词结合一起

从此考研词汇就再也没有看不懂的了

5aa453c7bbac3995d181681a89f923b0.png

从最高频的词汇开始背起

抢先抓住阅读的核心词汇

背的每一个单词你都知道他在文章中出现了N次

意味着每背一个单词

将来你都少错N次

视频教程在这

公众号发送考研单词

即可获得考研词汇表

2994061bfb8be0b81b293e2e7e2f8848.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值