合并txt文件,并使用jieba分词

将根目录下,各个类别文件内所有TXT文件分词、去除停用词后集合为一个TXT文件

#-*- coding: UTF-8 -*- 

import os
import jieba
# 遍历指定目录,显示目录下的所有文件名
def eachFile(filepath):
    fr = open('stopwords.txt','r')  #停用词文件在当前工作目录下
    stopwords_list =[]
    for line in fr.readlines():
        line=line.decode('utf-8').strip().split()
        #print line,type(line),len(line)
        line=line[0]
        #print line,type(line),len(line)
        stopwords_list.append(line)      
    pathDir =  os.listdir(filepath)
    dat=[]
    for allDir in pathDir:
        dat=''
        child = os.path.join('%s%s\\' % (filepath, allDir))

        wfile='D:\Documents\data\Redeced1\\'+allDir+'.txt'
        fopen = open(wfile, 'w')
        print child# .decode('gbk')是解决中文显示乱码问题
        for x in os.listdir(child):
            print x
            fr=open(child+x,'r').readlines()
            for y in fr:
                y=y.strip('\n')
                seg_list =list(jieba.cut(y))
                outStr = ''  
                for word in seg_list:
                    if  word not in stopwords_list :
                        outStr += word  
                        outStr += '  ' 
                dat=dat+outStr
            #print dat
            fopen.write(dat.encode('gbk','ignore')+'\n')
            break

        fopen.close()


if __name__ == '__main__':
    filePath = "D:\\Documents\\data\\Reduced\\"#文件所在目录

    eachFile(filePath)
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值