本文背景是大学关系很好的老师最近在做文本挖掘相关的项目,想要我用Python帮她实现公司年报中某些词出现次数的统计。根据她提供的部分年报文档,设计了实现代码,只要把文档放到指定的文件夹中,即可全量实现。从指定文档中统计词频可以应用在写毕业论文、行业分析、商业价值挖掘等多个模块,故把全量代码分享给更多有需要的朋友。
一、获取指定文件夹下的全量文件名
由于不同的项目文件数量和名称是不固定的,故写代码自动获取指定文件夹下所有的文件名。具体代码如下:
import os
filePath = r'F:\公众号\82_年报分词\试试' # 存放txt文档的文件路径
os.chdir(filePath) # 设置文件读取路径
files = os.listdir(filePath)