前言
从历年四级英语真题中获取词频最高的 5000 个词汇 ,并进行翻译 !综合用到了爬虫 、数据分析等知识 ,亲爱的读者们还担心四级不能过么?
注:想学习Python的小伙伴们
可以进群:984632579 领取从0到1完整学习资料 视频 源码 精品书籍 一个月经典笔记和99道练习题及答案
基本开发环境
版本:Python3
系统:Windows
相关模块:csv、peewee、Counter等
程序介绍
自动批量收集文件中的英语单词 txt (utf-8)
统计排序保存到本地数据库 voca.db
翻译英文得到中文解释
数据库文件提取得到csv表格
主要目的
成为考试必备词库
希望大家都能轻松过四级
工作流程
配置查询文档
自动分析数据保存至voca.db数据库文件
自动打开数据库调用api翻译单词并保存到数据库里
将数据库文件转换成csv表格文件
具体实现
数据 (docx 复杂的文档结构不好用,可以在word里面以txt方式保存)
读入文件拿到所有单词
剔除 常用单词(is am are do……)
计数
数据库初始化 peewee模块
加入单词到数据库
翻译
提取所有单词到csv
完整代码可以加Python学习群
翻译过程
出现次数最多的简单词
出现次数较少,值得一背的词
上述完整代码和获取到的统计结果(5000个高频词),