机器学习之朴素贝叶斯

一、贝叶斯公式:

1.贝叶斯分类算法是统计学的一种概率分类方法,朴素贝叶斯分类是贝叶斯分类中最简单的一种,其分类原理是利用贝叶斯公式根据某特征的先验概率计算出其后验概率,然后选择具有最大后验概率的类作为该特征所属的类。

朴素贝叶斯分类只做最原始、最简单的假设:所有的特征之间是统计独立的。

(1)在事件B发生的情况下,事件A发生的概率:p\left ( A|B \right ) = \frac{p\left ( A\bigcap B \right )}{p\left ( B \right ) }\Rightarrow p\left ( A\bigcap B \right )=p\left ( A|B \right )p\left ( B \right )

同理可得:p\left ( A\bigcap B \right )=p\left ( B|A\right )p\left ( A\right ),所以:p\left ( A|B \right )p\left ( B \right )=p\left ( B|A \right )p\left ( A \right ) ,

进而得到贝叶斯公式:p\left ( A|B \right )=\frac{p\left ( B|A \right )p\left ( A \right )}{p\left ( B \right )}

(2)全概率公式:如果事件A1,A2,A3,....An构成一个完备事件且都有正概率,那么对于任意一个事件B则有:

P\left ( B \right )=P\left ( B A_{1}\right )+P\left ( B A_{2}\right )+...+P\left ( B A_{n}\right )=P\left ( B |A_{1}\right )P\left ( A_{1} \right )+P\left ( B |A_{2}\right )P\left ( A_{2} \right )+...+P\left ( B |A_{n}\right )P\left ( A_{n} \right )=\sum_{i=1}^{n}P\left ( A_{i} \right )P\left ( B |A_{i}\right )

2.贝叶斯推断:\left\{\begin{matrix} p\left ( A|B \right )=p\left ( A \right )\frac{p\left ( B|A \right )}{p\left ( B \right )}\\ p\left ( A_{i}|B \right )=p\left ( A_{i} \right )\frac{p\left ( B|A_{i} \right )}{\sum_{i=1}^{n}P\left ( A_{i} \right )P\left ( B |A_{i}\right )} \end{matrix}\right.

P(A)称为“先验概率”:在B事件发生之前,我们对A事件概率的一个判断

P(A|B)称为“后验概率”:在B事件发生之后,我们对A事件概率的重新评估

\frac{p\left ( B|A \right )}{p\left ( B \right )}称为“可能性函数”,这是一个调整因子,使得预估概率更接近真实概率。

所以贝叶斯公式可以理解为:后验概率 = 先验概率 * 调整因子

如果“可能性函数”>1,意味着“先验概率”被增强,事件A的发生可能性变大;

如果“可能性函数”=1,意味着B事件无助于判断事件A的可能性;

如果“可能性函数”<1,意味着“先验概率”被削弱,事件A的发生可能性变小;

3.将贝叶斯公式转换成分类任务的表达式:

二、朴素贝叶斯种类:

在scikit_learn中,一共有3个朴素贝叶斯的分类算法。分别是GaussianNB, MultinormalNB, BernoulliNB.

1.GaussianNB

GaussianNB就是先验为高斯分布(正态分布)的朴素贝叶斯,假设每个标签的数据都服从简单的正态分布。

P\left ( X_{j}=x_{j} |Y=C_{k}\right )=\frac{1}{\sqrt{2\pi \sigma _{k}^{2}}}exp\left ( -\frac{\left (x_{j}-\mu _{k}\right )^{2}}{2\sigma _{k}^{2}} \right )

其中,Ck为Y的第k类类别,\mu _{k}\sigma _{k}^{2}为需要从训练集估计的值。

2.MultinomialNB

即先验为多项式分布的朴素贝叶斯。

3.BernoulliNB

即先验为伯努利分布的朴素贝叶斯。

三、总结

1.一般来说,如果样本特征的分布大部分是连续值,使用GaussianNB会比较好

2.如果样本特征的分布大部分是多元离散值,使用MultinomialNB比较好

3.而如果样本特征是二元离散值或者很稀疏的多元离散值,应该使用BernoulliNB.

 

最后,感谢菊安酱在哔站的认真讲解!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值