python数据挖掘-文本挖掘(词频统计)

最新推荐文章于 2022-05-13 22:09:16 发布

原创

最新推荐文章于 2022-05-13 22:09:16 发布 · 4.1k 阅读

51 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据挖掘 #文本挖掘 #词频统计

一，使用pycharm创建项目
我创建的项目下只有两个文件，一个停分词文件，一个脚本代码文件
在这里插入图片描述
停分词文件(stopwords.txt):作用:在用jieba分词库对文件进行分词处理时，有些无用却频繁出现的分词，像“的”、“得”、“地”、“是”等，我们并不希望这些分词也被进行词频统计，因为统计这些分词没有什么意义，所以事先建立一个停分词文件，等会代码中利用这些停分词进行数据清洗
注意:文件中一个停分词必须按照独占一行的格式来写
在这里插入图片描述
二，全部代码如下：

import os
import os.path
import codecs
filePaths=[]
fileContents=[]

# c盘的Documents文件夹下放好自己要进行词频统计的txt文件
# os.walk()方法用于通过在目录树中游走输出在目录中的文件名，向上或者向下
for root,dirs,files in os.walk('C:\\Documents'):
    for name in files:
        print(name)
        filePath = os.path.join(root,name)
        filePaths.append(filePath)
        f=codecs.open(filePath,'r','utf-8')
        fileContent =f.read()
        f.close()
        fileContents.append(fileContent)


# 数据清洗
Contents=""
for i in