王小草【机器学习】笔记--分类算法之朴素贝叶斯

最新推荐文章于 2024-05-19 21:26:37 发布

王小小小草

最新推荐文章于 2024-05-19 21:26:37 发布

阅读量1.5k

点赞数 2

分类专栏：王小草机器学习笔记

本文链接：https://blog.csdn.net/sinat_33761963/article/details/53520451

版权

本文详细介绍了朴素贝叶斯分类算法，从概率论的基础知识如先验概率、后验概率、条件概率、全概率公式和贝叶斯定理出发，逐步解析朴素贝叶斯分类算法的基本方法。通过实例展示了如何利用极大似然估计和贝叶斯估计法估计参数，并通过一个一元特征案例和多元特征案例，解释了如何应用朴素贝叶斯进行分类。文章最后提到了在实践中使用Spark的mllib包实现朴素贝叶斯算法的示例。

摘要由CSDN通过智能技术生成

标签（空格分隔）：王小草机器学习笔记

##1. 概率论知识
###1.1 先验概率与后验概率
假设有两个事件A和B：
P(A) 为A的先验概率，它不考虑任何B事件的因素；
P(B) 也为B的先验概率，它不考虑任何A事件的影响；
P(A/B) 是B事件发生后，A事件发生的概率，此时A受到B的影响，故称为A的后验概率；
P(B/A) 是A事件发生后，B事件发生的概率，同理，称为B的后验概率。

###1.2 条件概率
要想求得p(A/B),即B发生的情况下A发生的概率，可以运用以下条件概率公式：

image_1b3e7ri7q172913471fbe1piq49nc.png-5.3kB

###1.3 全概率公式
假设一个事件A发生的概率由一系列的因素决定：V1，V2，V3…
则事件A的概率可以用下面的全概率公式得到：
P(A) = P(A/V1)P(V1) + P(A/V2)P(V2) + P(A/V3)P(V3)…

表示成公式为：

image_1b3e7ve8r1lsa1e5a42oi4ur33p.png-4.8kB

###1.4 贝叶斯定理
根据以上公式，故贝叶斯定理给出：

image_1b3e86da5p741et11qt1iskegc16.png-6kB

这个贝叶斯公式的意义在于，在实际的项目中，P(A/B)往往很容易求得，而反之，P(B/A)却很难计算，而实际上，我们往往需要得到的是P(B/A)。因此，贝叶斯定理为此搭起了桥梁。

##2. 朴素贝叶斯分类算法

2.1 基本方法

假设我们有一组训练数据集T：
T = {(x1,y1),(x2,y2),…,(xN,yN)}

x是一个特征向量，长度维n，即每个样本都有n个特征组成。每个特征都会有各自的取值集合，比如a(il)表示第i个特征的第l个值。

y表示的是样本的类别标签，类别集合记为{c1,c2,…,ck}

朴素贝叶斯是通过训练数据集学习联合概率分布P(X,Y)。
根据条件概率公式p(A/B)=P(AB)/P(B)可得p(AB)=P(A/B)P(B)。
所以，要求的联合概率分布p(X,Y)，首先要求得先验概率P(Y),和条件概率p(X/Y).
先验概率P(Y),和条件概率p(X/Y)这两者都是可以通过训练集直接求得的。

先验概率分布：
image_1b3ef51bhlas5t45vk2apo6k9.png-4.5kB
即计算处训练集中每一个类别（k=1,2…K）出现的概率。

条件概率分布：
image_1b3efcnve4061kc4qcdq5819qm.png-9.8kB
即计算处当类别分别为k=1,2…K时，某租特征出现的概率。

朴素贝叶斯法对条件概率做了“条件独立性假设”，即在知道了Y=ck的分布后，任何特征之间都是独立的。既然是独立的那么它们共同出现的概率就是它们各自出现的概率的乘积。于是，上面的条件概率分布公式可以转换为：
image_1b3efoslgo0140h19topbqqnu13.png-13.8kB
j表示第

最低0.47元/天解锁文章

王小小小草

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
王小草【机器学习】笔记--分类算法之朴素贝叶斯

标签（空格分隔）：王小草机器学习笔记1. 概率论知识1.1 先验概率与后验概率假设有两个事件A和B： P(A) 为A的先验概率，它不考虑任何B事件的因素； P(B) 也为B的先验概率，它不考虑任何A事件的影响； P(A/B) 是B事件发生后，A事件发生的概率，此时A受到B的影响，故称为A的后验概率； P(B/A) 是A事件发生后，B事件发生的概率，同理，称为B的后验概率。1.2 条件概率要
复制链接

扫一扫

专栏目录