朴素贝叶斯学习笔记

朴素贝叶斯的朴素是指:假设数据集样本中各个特征相互独立,这是一个很强的假设。

首先朴素贝叶斯的目的是在已知一个样本x的情况下(x有n个特征,即x是n维变量),求其属于类y(假设y有m类)中的哪一类。

直接拿下面例子写总结吧

即已知实例变量x的情况下,求其y属于哪一类。用概率表示就是P(Y=C_{k}|X=x),求哪一个Ck可以让这个概率取最大值,那么y就属于这一类。

计算上面的概率可以用贝叶斯公式展开:

P(Y=C_{k}|X=x)=\frac{P(Y=C_{k})P(X=x|Y=C_{k})}{P(X=x)},下面分母式是常数,因此我们的目标就变成了求Ck取哪个值,能让分子概率最大,概率最大的那个就认为是当前X=x的样本下,x应该属于Ck类。

分子上P(Y=C_{k})这个概率很好求,直接用数据集计算一下就可以了,

关键在于P(X=x|Y=C_{k})的求解,直接求这个概率是没有办法求的。因为样本中并不存在所有的特征的有所取值。

我们对其展开:

P(X=x|Y=C_{k})=\prod_{j}{P(X^{(j)}=x^{(j)}|Y=C_{k})},这里我们就用到了最开始的假设,各特征相互独立,不然我们是没办法连乘展开的。

如果各特征不相互独立,那实际上上面的式子只能写为P(X=x|Y=C_{k})={P(X^{(1)}=x^{(1)},...,X^{(j)}=x^{(j)},...,X^{(n)}=x^{(n)}|Y=C_{k})},而无法进一步化简计算,只有利用特征独立这一性质才能进一步化简。

展开到这一步就可以对其进行求解了,我们可以通过数据集计算每一个P(X^{(j)}=x^{(j)}|Y=C_{k}),最终计算P(Y=C_{k}|X=x)

最后通过遍历每一个{c1,c2,...,ck}每一个类,我们就可以计算出所有的P(Y=yi|X=x),yi\epsilon{c1,c2,...,ck},从而找到能使P(Y=yi|X=x)取最大值的那个yi,那么实例变量x就属于yi类了。

应用

1.由P(Y=C_{k}|X=x)=\frac{P(Y=C_{k})P(X=x|Y=C_{k})}{P(X=x)}:先计算P(Y=C_{k}),因为有两类,所以只需计算两次。

2.再计算P(X=x|Y=C_{k}),也就是\prod_{j}{P(X^{(j)}=x^{(j)}|Y=C_{k})},计算所有的P(X^{(j)}=x^{(j)}|Y=C_{k})

3. 根据给定预测实例,计算每一个P(Y=yi|X=x),这里有两类,所以还是计算两次:

4.比较第3步计算,取最大的那个式子对应的Y=yi,yi即是当前实例x所预测的类:

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值