python数据挖掘-文本挖掘(词频统计)

一,使用pycharm创建项目
   我创建的项目下只有两个文件,一个停分词文件,一个脚本代码文件
在这里插入图片描述
    停分词文件(stopwords.txt):作用:在用jieba分词库对文件进行分词处理时,有些无用却频繁出现的分词,像“的”、“得”、“地”、“是”等,我们并不希望这些分词也被进行词频统计,因为统计这些分词没有什么意义,所以事先建立一个停分词文件,等会代码中利用这些停分词进行数据清洗
    注意:文件中一个停分词必须按照独占一行的格式来写
在这里插入图片描述
二,全部代码如下:

import os
import os.path
import codecs
filePaths=[]
fileContents=[]

# c盘的Documents文件夹下放好自己要进行词频统计的txt文件
# os.walk()方法用于通过在目录树中游走输出在目录中的文件名,向上或者向下
for root,dirs,files in os.walk('C:\\Documents'):
    for name in files:
        print(name)
        filePath = os.path.join(root,name)
        filePaths.append(filePath)
        f=codecs.open(filePath,'r','utf-8')
        fileContent =f.read()
        f.close()
        fileContents.append(fileContent)


# 数据清洗
Contents=""
for i in
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值