jieba和朴素贝叶斯实现文本分类

最新推荐文章于 2022-01-25 15:30:09 发布

绿子i

最新推荐文章于 2022-01-25 15:30:09 发布

阅读量3k

点赞数 1

分类专栏：机器学习文章标签：机器学习 Naive Bayes jieba

本文链接：https://blog.csdn.net/qq_27396789/article/details/54836217

版权

使用jieba的analyse函数代替原有的关键词提取方法进行文本分类，虽然精确度提升约1.多%，但导致了运行时间显著增加，表明jieba的关键词提取在高维空间中时间复杂度较高。

摘要由CSDN通过智能技术生成

#盗取男票年轻时候的代码，现在全给我教学使用了，感恩脸

#分类文档为多个文件夹 文件夹是以类别名命名 内含多个单个文档

#coding: utf-8
from __future__ import print_function, unicode_literals
import os
import time
import random
import jieba

import numpy as np
from collections import defaultdict
import sklearn
from sklearn.naive_bayes import MultinomialNB

# 主要用来获取停用词
def MakeWordsSet(words_file):
    words_set = set()
    with open(words_file, 'r') as fp:
        for line in fp.readlines():
            word = line.strip()
            if len(word) > 0 and word not in words_set: # 去重
                words_set.add(word)
    return words_set

def TextProcessing(folder_path, test_size=0.2):
    folder_list = os.listdir(folder_path)
    data_list = []
    class_list = []

    # 类间循环
    for folder in folder_list:
        new_folder_path = os.path.join(folder_path, folder)
        # 输出相关路径和时间
        print ("路径 = ", new_folder_path, time.asctime((time.localtime(time.time()))))
        files = os.listdir(new_folder_path)
        # 类内循环
        for file in files:
            with open(os.path.join(new_folder_path, file), 'r') as fp:
               raw = fp.read()
            word_cut = jieba.cut(raw, cut_all=False) # 精确模式，返回的结构是一个可迭代的genertor
            word_list = list(word_cut) # genertor转化为list，每个词unicode格式
            data_list.append(word_list)
            class_list.append(folder)

    # 划分训练集和测试集
    data_class_list = list(zip(data_list, class_list))
    # 返回随机排列后的序列，没有返回值，会直接修改data_class_list
    random.shuffle(data_class_list)
    index = int(len(data_class_list) * test_size) + 1 #获取部分序列位置（index） (train:test)4 : 1
    train_list = data_class_list[index:]
    test_list = data_class_list[:index]
    train_data

最低0.47元/天解锁文章

绿子i

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
jieba和朴素贝叶斯实现文本分类

#盗取男票年轻时候的代码，现在全给我教学使用了，感恩脸#分类文档为多个文件夹文件夹是以类别名命名内含多个单个文档#coding: utf-8from __future__ import print_function, unicode_literalsimport osimport timeimport randomimport jiebaimport numpy as np
复制链接

扫一扫