易懂：朴素贝叶斯算法

最新推荐文章于 2022-06-02 14:11:25 发布

如厮__

最新推荐文章于 2022-06-02 14:11:25 发布

阅读量510

点赞数

分类专栏：数据、机器、深度等算法相关文章标签：朴素贝叶斯算法 python 机器学习

本文链接：https://blog.csdn.net/rusi__/article/details/103758857

版权

数据、机器、深度等同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

算法相关

16 篇文章 0 订阅

订阅专栏

前言

尽量描述通俗易懂
有公式详解和使用案例
算法实现和公式推导有链接
还有小彩蛋 -。-

公式及公式详解

公式：𝑃(𝐶│𝑊) = (𝑃(𝑊│𝐶)𝑃(𝐶))/(𝑃(𝑊))
可以理解为：𝑃(𝐶│𝐹1,𝐹2,…) = (𝑃(𝐹1,𝐹2,… │𝐶)𝑃(𝐶))/(𝑃(𝐹1,𝐹2,…))
公式数学原理：朴素贝叶斯算法与统计学
公式的推导与python实现：朴素贝叶斯算法推导与实现
公式详解：
1、先了解下两个名词：
联合概率：包含多个条件，且所有条件同时成立的概率记作：𝑃(𝐴,𝐵)
条件概率：指在事件 B 已经发生的情况下，事件 A 发生的概率。通常记为 𝑃(𝐴|𝐵)；其计算规则：P(A1,A2|B) = P(A1|B)P(A2|B)
2、𝑃(𝐶│𝑊) = 𝑃(𝐶│𝐹1,𝐹2,…) 为最终值（参与比较确定文章类别）。
3、𝐶 代表文档类别。
4、𝑃(𝐶)：每个文档类别的概率(某文档类别总词数／总文档总词数)。
5、𝑃(𝑊│𝐶)=(𝑃(𝐹1,𝐹2,… │𝐶)=𝑃(𝐹1│𝐶)+𝑃(𝐹2│𝐶)+𝑃(𝐹3│𝐶)+…：是给定类别下的特征（被预测文档中出现的词）的概率，计算方法：
- - 𝑃(𝐹i│𝐶)=𝑁𝑖/𝑁≈(𝑁𝑖+α)/(𝑁+αm)
- - 𝑁𝑖为该𝐹i词在𝐶类别所有文档中出现的次数
- - α为拉普拉斯平滑系数（这是为了避免有时候我们求出的𝑃(𝐹i│𝐶)为0的情况---->这样最终值就会为0了。）
- - α为指定的系数一般为1，m为训练文档中统计出来的特征词的个数。
6、𝑃(𝐹1,𝐹2,…)：训练集文档中出现的每个词的概率。
公式案例：现有一篇被预测文档：出现了影院，支付宝，云计算，请计算属于科技、娱乐的类别概率？

特征\统计	科技	娱乐	汇总(求和)
“商场”	9	51	60
“影院”	8	56	64
“支付宝”	20	15	35
“云计算”	63	0	63
汇总(求和)	100	121	221

计算(最终值请自行敲计算器)：
P(科技|影院,支付宝,云计算)
= (𝑃(影院,支付宝,云计算│科技)∗P(科技))/(𝑃(影院,支付宝,云计算))
= [(8+1)/(100+1 * 4) * (20+1)/(100+1 * 4) * (63+1)/(100+1 * 4) * (100)/(221)] / [64/221 * 35/221 * 63/221]
P(娱乐|影院,支付宝,云计算)
= (𝑃(影院,支付宝,云计算│娱乐)∗P(娱乐))/(𝑃(影院,支付宝,云计算))
= [(56+1)/(121+1 * 4) * (15+1)/(121+1 * 4) * (0+1)/(121+1 * 4) * (121)/(221)] / [64/221 * 35/221 * 63/221]
小提示：其实 /(𝑃(影院,支付宝,云计算)) 这部分可以不用计算，它类似“常量”

python实现朴素贝叶斯算法API介绍

API:sklearn.naive_bayes.MultinomialNB(alpha=1.0)
重要参数介绍：alpha：拉普拉斯平滑系数（可以改，但不用改，对准确率基本无影响）。

测试案例

需求：文本分类分析
数据集：sklearn自带的20类新闻分类预测
流程：1、加载20类新闻数据，并分割；2、生成文章特征词；3、朴素贝叶斯Api进行预估

#!/usr/local/bin/python3
# -*- coding: utf-8 -*-
# Author  : rusi_
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB


def news_bys():
    """
    朴素贝叶斯进行文本分类
    :return:None
    """
    news = fetch_20newsgroups(data_home=r"E:\mac_obj_file", subset="all")
    x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25)
    tf = TfidfVectorizer()
    x_train = tf.fit_transform(x_train)
    x_test = tf.transform(x_test)

    mlt = MultinomialNB(alpha=1.0)  
    mlt.fit(x_train, y_train)

    y_predict = mlt.predict(x_test)
    print("预测的文章类别为：", y_predict)
    # Accuracy rate
    # 0.8505942275042445 (Unlikely to improve accuracy, because there is no super parameter)
    print("准确率为：", mlt.score(x_test, y_test))
    return None


if __name__ == '__main__':
    news_bys()

小彩蛋

朴素贝叶斯算法的朴素一词就是在表明：数据集要特征独立，没有联系，互不影响哦。

如厮__

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
易懂：朴素贝叶斯算法

前言尽量描述通俗易懂有公式详解和使用案例算法实现和公式推导有链接还有小彩蛋 -。-相关信息定义（我反正不太懂）：朴素贝叶斯法（Naive Bayes）是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入 x ，利用贝叶斯定理求出后验概率最大的输出 y 。定义通俗理解：如果数据集的...
复制链接

扫一扫