贝叶斯⑤——搜狗新闻分类实战（jieba + TF-IDF + 贝叶斯）

最新推荐文章于 2022-09-05 01:30:40 发布

数据小斑马

最新推荐文章于 2022-09-05 01:30:40 发布

阅读量4k

点赞数 4

分类专栏：贝叶斯文章标签：搜狗新闻分类实战文本分类实战 jieba分词 TF-IDF 贝叶斯分类

本文链接：https://blog.csdn.net/cindy407/article/details/93789415

版权

本文介绍了使用jieba分词、TF-IDF和朴素贝叶斯分类器对搜狗新闻进行文本分类的实战过程。通过90篇财经、体育、教育等类别的新闻，构建了TF-IDF词频权重矩阵，并进行了多项式模型的朴素贝叶斯分类。尽管分类效果一般，但得出结论：特征量越大，多项式模型优势越明显。

摘要由CSDN通过智能技术生成

贝叶斯机器学习系列：
贝叶斯①——贝叶斯原理篇（联合概率&条件概率&贝叶斯定理&拉普拉斯平滑)
贝叶斯②——贝叶斯3种分类模型及Sklearn使用（高斯&多项式&伯努利）
贝叶斯③——Python实现贝叶斯文本分类（伯努利&多项式模型对比）
贝叶斯④——Sklean新闻分类（TF-IDF）
贝叶斯⑥——银行借贷模型（贝叶斯与决策树对比）

分类过程：
1、导入文件并用jieba分词
2、随机抽取训练和测试样本
3、建立tf-idf词频权重矩阵
4、朴素贝叶斯分类（采用多项式模型）

数据集下载
选取了搜狗新闻下财经，体育、教育等九大类别共90篇文章，本博文将使用朴素贝叶斯进行分类实战（数据集文末有下载方式，方便你实操一遍）

一、读取文件并用jieba分词

import os
import jieba

# 读取所有文件并组成矩阵，特征和类别单独存放
fold_path = r'C:\Users\cindy407\Desktop\Naive-Bayes-Text-Classifier\Database\SogouC\Sample'
folder_list = os.listdir(fold_path)  # 读取文件夹列表
print(folder_list)
artcilt_list = []
class_list = []
for fold in folder_list:  # 读取子文件夹列表 
    new_fold_path = os.path.join(fold_path,fold) # 将路径拼接
    files = os.listdir(new_fold_path) # 再读取子文件夹
    for file in files: # 读取文件
        with open(os.path.join(new_fold_path,file),'r',encod