对一批文件进行中文分词,分词后输出字符串,示例代码

简介
学习需要记录一下自己调通的代码,所以简要记录一下。
数据介绍
输入文本为一段话分别为一个文件,eg:neg.0.txt,neg.29.txt。
输出结果示例:酒店,门面,很小,不像,三星级,酒店,入住率,好像,反正,房间,大小,标准,光线,网络,奇差,无比,连不上,服务,
代码

# -*- coding:utf-8 -*-
import codecs
import os
import shutil
import jieba
import jieba.analyse


#Read file and cut
def read_file_cut(file_path, num_recs):
    #create path

    respath = "C:\\Users\\Administrator\\PycharmProjects\\M_H_Attention\\neg0_99\\result_test"
    if os.path.isdir(respath):
        shutil.rmtree(respath, True)
    os.makedirs(respath)
   # jieba.load_userdict('THUOCL_food.txt')#导入用户自定义词典
    num = 0
    while num< num_recs:
        name = "%d" % num
        print(name)
        fileName = file_path + str(name) + ".txt"
        resName = respath + str(name) + ".txt"
        source = codecs.open(fileName, 'r'
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值