Naive_Bayes

朴素贝叶斯

概念直观理解:

验证每一个类别中,样本特征的分布情况,根据新样本中特征的分布情况预测属于每一个类别的概率,输出概率最大的类别,我们就认为这个样本属于这个类别。

案列:早起咱们的Yahoo做垃圾邮件的分类,就使用的是咱们的朴素贝叶斯

几个比较常见的概率基础知识:

条件概率是指事件A在事件B发生的条件下发生的概率
P ( A ∣ B ) = P ( A B ) P ( B ) P(A | B)=\frac{P(A B)}{P(B)} P(AB)=P(B)P(AB)
联合概率是指包含多个条件,且所有条件同时成立的概率 P(AB) 或者P(A,B),或者P(A∩B)

乘法公式:

由条件概率公式得:

​ P(AB)=P(A|B)P(B)=P(B|A)P(A)

乘法公式的推广:对于任何正整数n≥2,当P(A1A2…An-1) > 0 时,有:

​ P(A1A2…An-1An)=P(A1)P(A2|A1)P(A3|A1A2)…P(An|A1A2…An-1)

全概率公式

设 B1,B2,…是样本空间Ω的一个划分(完备事件组),A为任一事件,则:
P ( A ) = ∑ i = 1 ∞ P ( B i ) P ( A ∣ B i ) P(A)=\sum_{i=1}^{\infty} P\left(B_{i}\right) P\left(A | B_{i}\right) P(A)=i=1P(Bi)P(ABi)

朴素贝叶斯

朴素贝叶斯的独立性假设,只适用于特征之间,而不能说特征与咱们的目标之间也是独立的

设B1,B2,…是样本空间Ω的一个划分,则对任一事件A(P(A)>0),有
P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) P\left(B_{i} | A\right)=\frac{P\left(B_{i}\right) P\left(A | B_{i}\right)}{\sum_{j=1}^{n} P\left(B_{j}\right) P\left(A | B_{j}\right)} P(BiA)=j=1nP(Bj)P(ABj)P(Bi)P(ABi)
其实咱们的朴素贝叶斯公式是由以上三个公式总结得来

弄清楚笔记本里面的关于文本分类的朴素贝叶斯公式的推导

算法总结:

优点:

  • 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率
  • 对缺失数据不太敏感,算法也比较简单,常用于文本分类
  • 分类精确度高,速度快

缺点:

  • 由于使用了样本属性独立性的假设,所以如果特征属性有关联时其效果不好(结合咱们的词语之间是有上下文关系的去考虑)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值