中考已经成为分流的方式,其中英语应该是最容易拉开差距的科目,而词汇是英语的基础;快速把中考需要的重点词汇识别出来是高效的手段之一,分析考试词汇的频率,实现精准打击,提高效率。巧妇难为无米之炊,首先选择北京市2012年~2022年的历年中考真题作为样本(百度下载word版本),统计所有单词以及出现的频率,作为记忆优先级的依据。
素材收集及整理
文件夹所有文档合并
统计合并后文档的所有单词及词频,按照词频从高到低排序,并导出到EXCEL文件中
清理异常数据
第一步:素材收集及整理。
从百度下载北京市2012年~2022年的历年中考真题,存档在电脑桌面的文件夹English_tests目录下,并把所有文件都调整为docx的格式(如果下载后的文件格式是Microsoft Word97-2003文档的话,打开并另存为Word文档,即文件类型从.doc调整为.docx)。
第二步:文件夹所有文档合并。
把English_tests目录下的所有文档合并为一个Word文档(文件名:merged_tests.docx),并另存在桌面上:
import os #导入文件调用模块 import docx #导入word文件处理模块 from docx import Document def merge_word_files(folder_path, output_file): # 创建一个新的Word文档 merged_document = Document() # 遍历文件夹中的所有文件 for filename in os.listdir(folder_path): if filename.endswith('