python朴素贝叶斯的文本分类_基于Python 朴素贝叶斯--文本分类

最新推荐文章于 2023-02-18 08:30:00 发布

weixin_39716105

最新推荐文章于 2023-02-18 08:30:00 发布

阅读量286

点赞数

文章标签： python朴素贝叶斯的文本分类

本文链接：https://blog.csdn.net/weixin_39716105/article/details/111427477

版权

基于Python 朴素贝叶斯--文本分类

# coding: utf-8

利用jupter book在线运行code。

步骤：

准备分类文档内容和分类标签，停用词文档

利用Jieba(中文)/NTLK(英文)将文档中单词分词

加载停用词文件，生成TFIDF向量，计算单词的TFIDF,(TF:词频，IDF：逆向文档频率=

(文档数/(单词出现的文档数+1))

使用多项式贝叶斯算法生成分类器

预测结果并计算分类器的准确率

# 中文文本分类

import os

import jieba

import warnings

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.naive_bayes import MultinomialNB

from sklearn import metrics

def cut_words(file_path):

"""

对文本进行切词

:param file_path: txt文本路径

:return: 用空格分词的字符串

"""

text_with_spaces = ''

text=open(file_path, 'r', encoding='gb18030').read()

textcut = jieba.cut(text)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注