基于Python 朴素贝叶斯--文本分类
# coding: utf-8
利用jupter book在线运行code。
步骤:
准备分类文档内容和分类标签,停用词文档
利用Jieba(中文)/NTLK(英文)将文档中单词分词
加载停用词文件,生成TFIDF向量,计算单词的TFIDF,(TF:词频,IDF:逆向文档频率=
(文档数/(单词出现的文档数+1))
使用多项式贝叶斯算法生成分类器
预测结果并计算分类器的准确率
# 中文文本分类
import os
import jieba
import warnings
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics
def cut_words(file_path):
"""
对文本进行切词
:param file_path: txt文本路径
:return: 用空格分词的字符串
"""
text_with_spaces = ''
text=open(