Python实现中考英语单词词频统计_python 英语试卷单词统计分析-CSDN博客

本文链接：https://blog.csdn.net/m0_66450607/article/details/140676204

中考已经成为分流的方式，其中英语应该是最容易拉开差距的科目，而词汇是英语的基础；快速把中考需要的重点词汇识别出来是高效的手段之一，分析考试词汇的频率，实现精准打击，提高效率。巧妇难为无米之炊，首先选择北京市2012年~2022年的历年中考真题作为样本（百度下载word版本），统计所有单词以及出现的频率，作为记忆优先级的依据。

素材收集及整理

文件夹所有文档合并

统计合并后文档的所有单词及词频，按照词频从高到低排序，并导出到EXCEL文件中

清理异常数据

第一步：素材收集及整理。

从百度下载北京市2012年~2022年的历年中考真题，存档在电脑桌面的文件夹English_tests目录下，并把所有文件都调整为docx的格式（如果下载后的文件格式是Microsoft Word97-2003文档的话，打开并另存为Word文档，即文件类型从.doc调整为.docx）。

第二步：文件夹所有文档合并。

把English_tests目录下的所有文档合并为一个Word文档（文件名：merged_tests.docx），并另存在桌面上:

import os #导入文件调用模块
import docx #导入word文件处理模块
from docx import Document


def merge_word_files(folder_path, output_file):
    # 创建一个新的Word文档
    merged_document = Document()

    # 遍历文件夹中的所有文件
    for filename in os.listdir(folder_path):
        if filename.endswith('