python四级词汇采集_Python分析36套四级真题获取词频最高5000个词汇,还怕四级不过么...

前言

从历年四级英语真题中获取词频最高的 5000 个词汇 ,并进行翻译 !综合用到了爬虫 、数据分析等知识 ,亲爱的读者们还担心四级不能过么?

注:想学习Python的小伙伴们

可以进群:984632579 领取从0到1完整学习资料 视频 源码 精品书籍 一个月经典笔记和99道练习题及答案

基本开发环境

版本:Python3

系统:Windows

相关模块:csv、peewee、Counter等

程序介绍

自动批量收集文件中的英语单词 txt (utf-8)

统计排序保存到本地数据库 voca.db

翻译英文得到中文解释

数据库文件提取得到csv表格

主要目的

成为考试必备词库

希望大家都能轻松过四级

工作流程

配置查询文档

自动分析数据保存至voca.db数据库文件

自动打开数据库调用api翻译单词并保存到数据库里

将数据库文件转换成csv表格文件

具体实现

数据 (docx 复杂的文档结构不好用,可以在word里面以txt方式保存)

读入文件拿到所有单词

剔除 常用单词(is am are do……)

计数

数据库初始化 peewee模块

加入单词到数据库

翻译

提取所有单词到csv

完整代码可以加Python学习群

翻译过程

出现次数最多的简单词

出现次数较少,值得一背的词

上述完整代码和获取到的统计结果(5000个高频词),

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值