朴素贝叶斯笔记

1.什么是朴素贝叶斯

朴素贝叶斯是基于概率论的一种分类方法,即基于贝叶斯定理和假设"特征条件互相独立"(即"朴素"的含义)

贝叶斯公式如下:


这里B指分类,A指特征,即:

1.1先验概率:

根绝以往经验和分析得到的概率,如上面的P(B),P(A)

1.2 条件概率

条件概率是指在事件Y=y已经发生的条件下,事件X=x发生的概率,可以表述为:

(式1)

这里联合概率P(X=x,Y=y) = P(X=x)P(Y=y|X=x) 或者P(X=x,Y=y) = P(Y=y)P(X=x|Y=y)  ,两者是等价的

1.3后验概率

实际也是为条件概率,以先验概率为基础,如上述第二个公式中

(式2)

p(类别|特征)为后验概率,p(类别),p(特征)为先验概率

后验概率可以根据通过贝叶斯公式,用先验概率似然函数计算出来。如下所示

假设Y为性别,X表示是否爱看动漫(x1爱,x2不爱),则计算后验概率:爱看足球的男性,如下:

(式3)

如果要计算爱看足球的是女性的概率为:

(式4)

因此分母是相同的,我们在朴素贝叶斯中一般不需再计算分母,通过计算后验概率,可判断性别是男还是女。

1.4似然估计

"似然"和"概率"类似,都是表示某件事发生的可能性。

不同在于:“概率”用于在已知一些参数的情况下,预测接下来的观测所得到的的结果,而似然性是用于在已知某些观测所得到的的结果时,对有关事物的性质的参数进行估计。详细说明资料见:https://blog.csdn.net/songyu0120/article/details/85059149

最大似然估计:就是利用已知的样本结果信息,反推最有可能(最大概率)导致这些样本结果出现的模型参数值。假设抛了5次硬币,4次正面,1次反面,这时预测为正面的最大似然估计(根据当前样本的结果推出最合理的概率)为0.8,如果样本足够多,会得到值约等于0.5。例子详见https://www.applysquare.com/topic-cn/68qjIrKaf/

 

(式5)

从上式看出:

如果似然估计,那么表示A事件的发生提高了B事件发生的概率。

反之,如果<1,则说明A事件的发生降低了B事件发生的该率。

1.5拉普拉斯平滑

由于p(x|y) = 所有p(xi | y) 的乘积,如下

如果某个特征xi不存在,则会导致出现0概率,导致累乘的结果为0,比如在文本分类的问题中,当一个词语没有在训练样本中出现,该词语调概率为0,使用连乘计算文本出现概率时也为0。这是不合理的。

例子:

假设在文本分类中,有3个类,C1、C2、C3,在指定的训练样本中,某个词语K1,在各个类中观测计数分别为0,990,10,K1的概率为0,0.99,0.01,对这三个量使用拉普拉斯平滑的计算方法如下:
  1/1003 = 0.001,991/1003=0.988,11/1003=0.011

详见:

https://www.ctolib.com/topics-110185.html

https://dcpnonstop.github.io/2017/11/24/%E5%B9%B3%E6%BB%91%E5%A4%84%E7%90%86-%E6%8B%89%E6%99%AE%E6%8B%89%E6%96%AF%EF%BC%88laplace%EF%BC%89/

https://www.cnblogs.com/bqtang/p/3693827.html

 

Reference

https://www.cnblogs.com/lliuye/p/9178090.html

https://blog.csdn.net/Wprofessor/article/details/86931062

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值