原标题:Python分析36套四级真题获取词频最高5000个词汇,还怕四级不过么
前言
从历年四级英语真题中获取词频最高的 5000 个词汇 ,并进行翻译 !综合用到了爬虫 、数据分析等知识 ,亲爱的读者们还担心四级不能过么?
基本开发环境
版本:Python3
系统:Windows
相关模块:csv、peewee、Counter等
程序介绍
自动批量收集文件中的英语单词 txt (utf-8)
统计排序保存到本地数据库 voca.db
翻译英文得到中文解释
数据库文件提取得到csv表格
主要目的
成为考试必备词库
希望大家都能轻松过四级
工作流程
配置查询文档
自动分析数据保存至voca.db数据库文件
自动打开数据库调用api翻译单词并保存到数据库里
将数据库文件转换成csv表格文件
具体实现
数据 (docx 复杂的文档结构不好用,可以在word里面以txt方式保存)
读入文件拿到所有单词
剔除 常用单词(is am are do……)
计数
数据库初始化 peewee模块
加入单词到数据库
翻译
提取所有单词到csv
完整代码可以加Python学习群:960410445
翻译过程
出现次数最多的简单词
出现次数较少,值得一背的词
上述完整代码和获取到的统计结果(5000个高频词),完整代码可以加Python学习群:960410445群文件自行领取返回搜狐,查看更多
责任编辑: