朴素贝叶斯——文章分类示例

最新推荐文章于 2022-10-04 08:00:00 发布

蒋含竹

最新推荐文章于 2022-10-04 08:00:00 发布

阅读量440

点赞数

分类专栏： Python MachineLearning # Sklearn 文章标签：机器学习分类朴素贝叶斯贝叶斯公式公式推导

本文链接：https://blog.csdn.net/alionsss/article/details/88096022

版权

MachineLearning 同时被 3 个专栏收录

42 篇文章 7 订阅

订阅专栏

Python

39 篇文章 2 订阅

订阅专栏

Sklearn

13 篇文章 0 订阅

订阅专栏

文章目录

朴素贝叶斯——文章分类示例

朴素贝叶斯——文章分类示例

0. 原理-公式推导

Venn图
因为
$\frac{P(A \bigcap B)}{P(B)} => P(A \bigcap B) = P(A | B) \cdot P(B)$
$\frac{P(A \bigcap B)}{P(A)} => P(A \bigcap B) = P(B | A) \cdot P(A)$
$\cdot P(B) = P(B | A) \cdot P(A)$
所以
$\frac{P(B | A) \cdot P(A)}{P(B)}$

1. 导包

import pandas as pd
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB

2. 原始数据

# fetch_20newsgroups新闻数据下载需要一定时间
news = datasets.fetch_20newsgroups(subset="all")
X = news.data
y = news.target
print(X[0:5])
print(y[0:5])

# 数据示例
["From: Mamatha Devineni Ratnam <mr47+@andrew.cmu.edu>\nSubject: Pens fans reactions\nOrganization: Post Office, Carnegie Mellon,  ...... I was very disappointed not to see the Islanders lose the final\nregular season game.          PENS RULE!!!\n\n"]
# 新闻分类示例
[10  3 17  3  4]

3. 数据预处理

# 训练集、测试集拆分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25)
# 使用TF-IDF
tf_idf = TfidfVectorizer()
X_train = tf_idf.fit_transform(X_train)
X_test = tf_idf.transform(X_test)
print(X_train[0:5])
print(tf_idf.get_feature_names()[8000:8020]) # 打印部分分词特征名

4. 构建朴素贝叶斯模型

mlt = MultinomialNB(alpha=1.0)
mlt.fit(X_train, y_train)

5. 结果预测与评分

# 预测
y_predict = mlt.predict(X_test)
print("预测结果", y_predict[0:10])
print("实际结果", y_test[0:10])
# 评分
print("准确度", mlt.score(X_test, y_test))

# 结果示例
预测结果 [ 0 16 15 12 16 12  6 17  7 11]
实际结果 [19 16 15 12 16 12  6 17  7 11]
准确度 0.8529286926994907

蒋含竹

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录