python机器学习小记——基于朴素贝叶斯(Native Bayes,NB)模型的分类预测

最新推荐文章于 2024-03-22 14:57:48 发布

VIP文章陈灿 Cedric

最新推荐文章于 2024-03-22 14:57:48 发布

阅读量1.2k

点赞数

分类专栏：阿里天池云-龙珠计划机器学习小记文章标签： python 算法机器学习数据分析朴素贝叶斯算法

本文链接：https://blog.csdn.net/Cedric_Chen_/article/details/111570789

版权

【阿里天池云-龙珠计划】python机器学习小记

在这里插入图片描述

<task02：朴素贝叶斯(Naive Bayes)分类模型>

文章目录

【阿里天池云-龙珠计划】python机器学习小记

一、朴素贝叶斯(Naive Bayes)算法原理及应用介绍

二、算法实战——基于iris数据集的贝叶斯分类

三、模拟离散数据集–贝叶斯分类

四、朴素贝叶斯在自然语言处理中的应用

【写在前面】
不知不觉已经第二篇了，希望可以坚持下去总结一年多的积累
曾无数次遇到bug在CSDN找到了解答，这个系列的总结也算是回馈给有需要的广大读者
感谢群主提供的学习机会@AI蜗牛车，群KOL@老表
推荐一下群主的公众号：AI蜗牛车，文中对于文本分类相关内容很多整理自公众号的白话机器学习部分👍
再推荐下此系列的上一篇博文——基于逻辑回归的分类预测

python机器学习小记——基于逻辑回归模型的多分类场景预测实战

那么我们开始吧~~

1.朴素贝叶斯(Naive Bayes)算法原理及应用介绍

1.1. 朴素贝叶斯(Naive Bayes)的介绍

朴素贝叶斯算法（Naive Bayes, NB) 是应用最为广泛的分类算法之一。基于贝叶斯公式计算得到，它是基于贝叶斯定义和特征条件独立假设的分类器方法。

之所以称为朴素贝叶斯，是因为它假设每个输入变量是独立的。

其有着坚实的数学基础，以及稳定的分类效率，且NB模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。适用于垃圾邮件过滤、情感预测、推荐系统等常见分类预测场景。尤其值得一提的是，对于文本分类任务，尤其是对于英文等语言来说，分类效果很好。

优劣势:

优点：实现简单，数理基础坚实，分类效率稳定，所需参数少，对缺失值不敏感。而且在数据量很小的时候表现良好，数据量很大的时候也可以进行增量计算。由于朴素贝叶斯使用先验概率估计后验概率具有很好的模型的可解释性；
缺点：专用于解决分类问题，只接受数值型、离散型，或者0-1二元型的自变量；基于自变量独立分布的假设，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。而在属性相关性较小时，朴素贝叶斯性能最为良好。为解决特征之间的相关性，我们还可以使用数据降维(PCA)的方法，去除特征相关性，再进行朴素贝叶斯计算。

1.2. 朴素贝叶斯(Naive Bayes)的算法原理

什么是条件概率，我们从一个摸球的例子来理解。我们有两个桶：灰色桶和绿色桶，一共有7个小球，4个蓝色3个紫色，分布如下图：
在这里插入图片描述

从这7个球中，随机选择1个球是紫色的概率p是多少？选择过程如下：

先选择桶
再从选择的桶中选择一个球

$\\ =p(选择灰桶) \cdot p(从灰桶中选择紫色) + p(选择绿桶) \cdot p(从绿桶中选择紫色) \\ =\frac{1}{2} \cdot \frac{2}{4} + \frac{1}{2} \cdot \frac{1}{3}$

上述我们选择小球的过程就是条件概率的过程，在选择桶的颜色的情况下是紫色的概率，另一种计算条件概率的方法是贝叶斯准则。

贝叶斯公式是英国数学家提出的一个数据公式:
$p(A|B)=\frac{p(A,B)}{p(B)}=\frac{p(B|A) \cdot p(A)}{\sum_{a \in ℱ_A}p(B|a) \cdot p(a)}$

p(A,B)：表示事件A和事件B同时发生的概率。

p(B)：表示事件B发生的概率，叫做先验概率；p(A)：表示事件A发生的概率。

p(A|B)：表示当事件B发生的条件下，事件A发生的概率叫做后验概率。

p(B|A)：表示当事件A发生的条件下，事件B发生的概率。

我们用一句话理解贝叶斯：世间很多事都存在某种联系，假设事件A和事件B。人们常常使用已经发生的某个事件去推断我们想要知道的之间的概率。
例如，医生在确诊的时候，会根据病人的舌苔、心跳等来判断病人得了什么病。对病人来说，只会关注得了什么病，医生会通道已经发生的事件来
确诊具体的情况。这里就用到了贝叶斯思想，A是已经发生的病人症状，在A发生的条件下是 $B_i$ 的概率。

朴素贝叶斯法 = 贝叶斯定理 + 特征条件独立。

输入 $\in R^n$ 空间是n维向量集合，输出空间 $y=\{c_1,c_2,...,c_K\}$ . 所有的X和y都是对应空间上的随机变量. $P (X, Y)$ 是X和Y的联合概率分别. 训练数据集(由 $P (X, Y)$ 独立同分布产生):
$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$

计算测试数据x的列表，我们需要依次计算 $P(Y=c_k|X=x)$ ，取概率最大的值，就是x对应的分类。

$P(Y=c_k|X=x)$ 我们一般这样解释，当给定 $(X = x)$ 的条件下， $Y=c_k$ 的概率，这就是条件概率. 这就简单了，我们只需要每个的x，计算其对应的

最低0.47元/天解锁文章

陈灿 Cedric

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
python机器学习小记——基于朴素贝叶斯(Native Bayes,NB)模型的分类预测

【阿里天池云-龙珠计划】python机器学习小记<task02：朴素贝叶斯(Naive Bayes)分类模型>文章目录【阿里天池云-龙珠计划】python机器学习小记一、朴素贝叶斯(Naive Bayes)算法原理及应用介绍二、算法实战——基于iris数据集的贝叶斯分类三、模拟离散数据集–贝叶斯分类四、朴素贝叶斯在自然语言处理中的应用【写在前面】不知不觉已经第二篇了，希望可以坚持下去总结一年多的积累曾无数次遇到bug在CSDN找到了解答，这个系列的总结也算是回馈给有需要的广
复制链接

扫一扫