中文文本分类

最新推荐文章于 2024-05-15 18:38:16 发布

Pg-Man

最新推荐文章于 2024-05-15 18:38:16 发布

阅读量1.1k

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/sinat_38832964/article/details/88081562

版权

Python 专栏收录该内容

28 篇文章 0 订阅

订阅专栏

# encoding: utf-8

import sys
import os
import jieba
import importlib
importlib.reload(sys)

def savefile(savepath,content):
    fp = open(savepath,"w",encoding='gb2312',errors='ignore')
    fp.write(content)
    fp.close()

def readfile(path):
    fp = open(path,"r",encoding='gb2312',errors='ignore')
    content = fp.read()
    fp.close()
    return content

corpus_path = "F://研究生项目//文本分类语料库//"
seg_path = "F://研究生项目//分词后的文本语料库//"

catelist = os.listdir(corpus_path)

for mydir in catelist:
    class_path = corpus_path+mydir+"/"
    seg_dir = seg_path+mydir+"/"
    if not os.path.exists(seg_dir):
        os.makedirs(seg_dir)
    file_list = os.listdir(class_path)
    for file_path in file_list:
        fullname = class_path+"/"+file_path
        content = readfile(fullname).strip()
        print(content)
        content = content.replace("\r\n","").strip()
        content_seg = jieba.cut(content)
        savefile(seg_dir+"/"+file_path," ".join(content_seg))
print("中文语料分词结束")

Pg-Man

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
中文文本分类

# encoding: utf-8import sysimport osimport jiebaimport importlibimportlib.reload(sys)def savefile(savepath,content): fp = open(savepath,"w",encoding='gb2312',errors='ignore') fp.write...
复制链接

扫一扫

专栏目录