机器学习之朴素贝叶斯案例：对新闻数据分类

风清扬雨

已于 2024-07-14 17:10:13 修改

阅读量463

点赞数 9

分类专栏：人工智能文章标签：机器学习分类人工智能

于 2024-07-14 17:08:08 首次发布

本文链接：https://blog.csdn.net/jacklx888/article/details/140419381

版权

人工智能专栏收录该内容

5 篇文章 0 订阅

订阅专栏

📰 机器学习实战：使用朴素贝叶斯分类器对新闻组数据集分类

在机器学习领域，新闻组数据集是一个经典的数据集，用于文本分类任务。这里，我们将使用Python的scikit-learn库中的新闻组数据集，并利用朴素贝叶斯分类器来进行分类。

📚 数据集介绍

scikit-learn提供了fetch_20newsgroups函数来加载新闻组数据集，这个数据集包含了20个不同主题的新闻组文章，每个主题都有一定数量的文章，非常适合用于文本分类的学习和实验。

🤖 模型构建与训练

接下来，我们将通过以下步骤使用朴素贝叶斯分类器对新闻组数据集进行分类：

加载数据集
预处理数据
分割数据集
特征提取
训练模型
验证模型

📝 Python代码实现

import numpy as np
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 加载数据集
newsgroups = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))

# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(newsgroups.data, newsgroups.target, test_size=0.25, random_state=42)

# 创建管道：特征提取 + 分类器
clf = make_pipeline(TfidfVectorizer(), MultinomialNB())

# 训练模型
clf.fit(X_train, y_train)

# 预测
predicted = clf.predict(X_test)

# 评估模型
print(classification_report(y_test, predicted, target_names=newsgroups.target_names))

🔍 代码解析

数据加载:
- 使用fetch_20newsgroups函数加载新闻组数据集。subset='all'表示加载所有数据，而remove=('headers', 'footers', 'quotes')则去除了邮件头、邮件尾和引用文本。
数据分割:
- 使用train_test_split函数将数据集分割成训练集和测试集，其中测试集占总数据的25%。
特征提取与模型训练:
- 使用TfidfVectorizer进行特征提取，它将文本转换为TF-IDF向量，这是一种常用的文本特征表示方法。
- 使用MultinomialNB作为分类器，这是一个适合于离散特征的朴素贝叶斯分类器。
- 利用make_pipeline将特征提取和分类器组合成一个管道，简化了流程。
模型评估:
- 使用classification_report生成详细的分类报告，包括精确度、召回率、F1分数等指标。