处理复旦大学中文文分类数据集 目录1. 处理原始数据2. 分词、去停用词3. 存储到csv4. 存储到数据库5. 主函数7. 最终结果展示6. 注意内容7. 资源列表8. 完整代码复旦大学中文文本分类数据集是一个小型轻量的数据集,常用于自然语言处理文本分类,文本聚类实验中,本文通过使用Python将该数据集进行基本处理,并分别存储到csv和sql文件中。1. 处理原始数据原始数据的格式为(如图1.1),每个文件夹中有不等量的.txt文件,每个文件为一篇语料。图1.1:原始数据格式读取类别文件列表,用os模块读取原始数据