机器学习之朴素贝叶斯

写在前面:本文写自初学时,若后续学习过程中有新的理解,将不定期进行更新;若文中叙述有误,望不吝赐教,也将及时修改

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。在理解朴素贝叶斯之前,需要对两个数学概念进行介绍:先验概率、后验概率。

举个例子:

如今正值夏季,我们常会去买西瓜解暑,那么怎么挑选西瓜才能保证是“好瓜”呢?(这也就是分类)

首先,我没有任何“经验知识”,例如色泽、根蒂、纹理等,那么按照常理来说,市场上的西瓜是好瓜的概率大致是60%,那么这个0.6就是先验概率。我们就说P(好瓜)=0.6

也就是说,先验概率不依附样本数据,不受任何条件的影响。

之后,通过父辈口口相传、网上检索,自己脑海中形成了一个如何判断西瓜是好瓜的方法,以根蒂为例,若我们知道当一个西瓜根蒂脱落时,其成熟的概率是75%,那么通过根蒂的情况来判断瓜的好坏就是后验概率。我们就说P(好瓜|根蒂脱落)=0.75,这个概率的读法是:在根蒂脱落的前提下,是好瓜的概率是0.75.

在了解先验概率和后验概率后,就可以再引申出联合概率

还是以上述为例,P(好瓜,根蒂脱落)即联合概率,表示是好瓜的同时其根蒂脱落的概率。

看过条件概率公式和贝叶斯公式的人应该熟悉这个公式:

 

P(A|B) = \frac{P(AB)}{P(B)}

同理P(B|A) = \frac {P(AB)} {P(A)}$

因此可以得到P(AB)=P(A|B) * P(B) = P(B|A) * P(A)

左式即联合概率,用西瓜来表示即:P(好瓜,根蒂脱落)=P(好瓜|根蒂脱落) * P(根蒂脱落) = P(根蒂脱落|好瓜) * P(好瓜)

结合一只西瓜只有好瓜和坏瓜两种情况,再结合全概率公式

P(B) = P(A_{1})P(B|A_{1}) + P(A_{2})P(B|A_{2})

最后可以得到关于根蒂脱落的全概率公式:

P(根蒂脱落) = P(好瓜)P(根蒂脱落|好瓜) + P(坏瓜)P(根蒂脱落|坏瓜)

理解了前面这些概念之后就可以搬出下面的公式(A代表根蒂脱落,B为好瓜):

P(B|A) = \frac{P(A|B)P(B)}{P(A)} = \frac{P(A|B)P(B)}{P(A|B_{1}) * P(B_{1}) + P(A|B_{2}) * P(B_{2})}

由于这里的B代表瓜的好坏,若延伸到多分类任务,即B有n个状态,则上式可写为:

P(B|A) = \frac{P(A|B)P(B)}{P(A)} = \frac{P(A|B)P(B)}{\sum_{i=1}^{k}P(A|B_{i}) * P(B_{i})}

更一般的,用x代表特征值,y代表待分类的类别,则上式又可写为:

P(y=B|x=\mathbf{A}) = \frac{P(x=\mathbf{A}|y=B)P(y=B)}{P(x=\mathbf{A})} = \frac{P(x=\mathbf{A}|y=B)P(y=B)}{\sum_{i=1}^{k}P(x=\mathbf{A}|y=B_{i}) * P(y=B_{i})}

加粗体的A表示一个向量,有多个特征值,而:

P(\mathbf{A}|B)=P(A_{1}, A_{2}, A_{3}...|B)=\prod_{i=1}^{d}P(A_{i}|B)

代入上式,最后可得:

 

P(y=B|x=\mathbf{A}) = \frac{P(y=B)\prod_{i=1}^{d}P(x = A_{i}|y = B)}{\sum_{i=1}^{k}P(y=B_{i}) * \prod_{i=1}^{d}P(x = A_{i}|y = B)}

此即用特征A来分类y的一般表达式

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值