贝叶斯算法进行文档分类

最新推荐文章于 2021-11-29 18:46:17 发布

u010255214

最新推荐文章于 2021-11-29 18:46:17 发布

阅读量289

点赞数

分类专栏：机器学习文章标签：算法机器学习

本文链接：https://blog.csdn.net/u010255214/article/details/120523811

版权

机器学习专栏收录该内容

13 篇文章 4 订阅

订阅专栏

from time import time
from sklearn.datasets import load_files

print("加载训练集 ...")
t=time()
news_train=load_files(r'C:\Users\EDZ\PycharmProjects\379\train')#读入内存
print("统计：文档数：{0} ，分类数：{1} ".format(len(news_train.data),len(news_train.target_names)))
print("{0} 秒完成".format(time()-t))

#查看第一篇文档所属类别名称
news_train.target_names[news_train.target[0]]

#将文档转为TF-IDF表达的权重信息构成的向量
from sklearn.feature_extraction.text import TfidfVectorizer

print("将训练集转换成向量 ...")
t=time()
vectorizer=TfidfVectorizer(encoding='latin-1')
#TfidfVectotizer 类是用来把所有文档转换为矩阵，该矩阵每行都代表一个文档，
#一行中的每个元素代表一个对应的词语的重要性，词语的重要由TF-IDF来表示。
X_train=vectorizer.fit_transform((d for d in news_train.data))
#fit()先完成语料库分析、提取词典等操作，transform()完成把文档转换为向量的操作
print("样本数：%d，特征数：%d"%X_train.shape)
print("样本[{0}]的非0特征个数：{1}".format(news_train.filenames[0],X_train[0].getnnz()))
#X_train[0].getnnz()获取非0元素的个数

print("加载测试集...")
t=time()
news_test=load_files(r"C:\Users\EDZ\PycharmProjects\379\test")
print("统计：文档数：{0} ，分类数：{1} ".format(len(news_test.data),len(news_test.target_names)))
print("{0} 秒完成".format(time()-t))

X_test=vectorizer.transform((d for d in news_test.data))
#vectorizer 变量是处理训练数据集时用到的向量化的类的实例，
#此处只需要调用 transform （）进行TF-IDF 数值计算即可，不需要再调用 fit ()进行语料库分析
y_test=news_test.target
print("样本数：%d，特征数：%d"%X_test.shape)
print("样本[{0}]的非0特征个数：{1}".format(news_test.filenames[0],X_test[0].getnnz()))
print("{0}秒完成".format(time()-t))

#模型训练
from sklearn.naive_bayes import MultinomialNB

print("训练模型...".format(time()-t))
t=time()
y_train=news_train.target
clf=MultinomialNB(alpha=0.0001)
#alpha 表示平滑参数,其值越小，越容易造过拟合，其值太大，越容易造成欠拟合
clf.fit(X_train,y_train)
train_score=clf.score(X_train,y_train)
print("训练集得分：{0}".format(train_score))
print("{0}秒完成".format(time()-t))

pred=clf.predict(X_test)

from sklearn.metrics import classification_report
print("分类报告：")
print(clf)
print(classification_report(y_test,pred,target_names=news_test.target_names))
#生成准确率、召回率、F1分数清单

from sklearn.metrics import confusion_matrix#混淆矩阵

cm=confusion_matrix(y_test,pred)
print("混淆矩阵：")
print(cm)

#混淆矩阵可视化
import matplotlib.pyplot as plt

def Show_confusion_matrix(cm):
    plt.figure(figsize=(8,8),dpi=144)
    plt.title("Confusion matrix of the classifier")
    ax=plt.gca()#Get Current Axes  获得当前的Axes对象ax
    ax.spines['right'].set_color('none')
    ax.spines['top'].set_color ('none') 
    ax.spines['bottom'].set_color ('none') 
    ax.spines['left'].set_color ('none') 
    ax.xaxis.set_ticks_position('none')
    ax.yaxis.set_ticks_position('none')
    ax.set_xticklabels([])
    ax.set_yticklabels([])
    plt.matshow(cm,fignum=1,cmap='gray')
    #把矩阵或者数组绘制成图像的函数  cmap代表一种颜色映射方式
    plt.colorbar();

Show_confusion_matrix(cm)
#除对角线外，其他地方颜色越浅，说明此处错误越多

u010255214

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
贝叶斯算法进行文档分类

from time import timefrom sklearn.datasets import load_filesprint("加载训练集 ...")t=time()news_train=load_files(r'C:\Users\EDZ\PycharmProjects\379\train')#读入内存print("统计：文档数：{0} ，分类数：{1} ".format(len(news_train.data),len(news_train.target_names)))print(.
复制链接

扫一扫