朴素贝叶斯算法

分类,概率统计

  1. 条件概率

事件A在事件B发生的条件下的概率

P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac{P(AB)}{P(B)} P(AB)=P(B)P(AB)

2.乘法公式


P(AB)=P(B)P(A|B)=P(A)P(B|A)

n>=2

p(A_1A_2**A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)...P(A_n|A_1A_2...A_n1

3.全概率

如果事件组B1,B2,… 满足

  1. B1,B2…两两互斥,即 Bi ∩ Bj = ∅ ,i≠j , i,j=1,2,…,且P(Bi)>0,i=1,2,…;

  2. B1∪B2∪…=Ω ,则称事件组 B1,B2,…是样本空间Ω的一个划分
    设 B1,B2,…是样本空间Ω的一个划分,A为任一事件,则:
    P ( A ) = ∑ i = 1 n P ( B i ) P ( A ∣ B i ) P(A)=\sum_{i=1}^{n}{P(B_i)P(A|B_i)} P(A)=i=1nP(Bi)P(ABi)
    上式即为全概率公式(formula of total probability)

  3. 全概率公式的意义在于,当直接计算P(A)较为困难,而P(Bi),P(A|Bi) (i=1,2,…)的计算较为简单时,可以利用全概率公式计算P(A)。思想就是,将事件A分解成几个小事件,通过求小事件的概率,然后相加从而求得事件A的概率,而将事件A进行分割的时候,不是直接对A进行分割,而是先找到样本空间Ω的一个个划分B1,B2,…Bn,这样事件A就被事件AB1,AB2,…ABn分解成了n部分,即A=AB1+AB2+…+ABn, 每一Bi发生都可能导致A发生相应的概率是P(A|Bi),由加法公式得
    P(A)=P(AB1)+P(AB2)+…+P(ABn)
    =P(A|B1)P(B1)+P(A|B2)P(B2)+…+P(A|Bn)P(PBn)

  4. 贝叶斯

P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) P ( A ) = P ( B i ) P ( A ∣ B i ) ∑ i = 1 n P ( B i ) P ( A ∣ B i ) P(B_i|A)=\frac{P(B_i)P(A|B_i)}{P(A)}=\frac{P(B_i)P(A|B_i)}{\sum_{i=1}^{n}P(B_i)P(A|B_i)} P(BiA)=P(A)P(Bi)P(ABi)=i=1nP(Bi)P(ABi)P(Bi)P(ABi)
特征条件独立假设

  1. 实例:发报台分别以概率0.6和0.4发出信号“∪”和“—”。由于通信系统受到干扰,当发出信号“∪”时,收报台分别以概率0.8和0.2受到信号“∪”和“—”;又当发出信号“—”时,收报台分别以概率0.9和0.1收到信号“—”和“∪”。求当收报台收到信号“∪”时,发报台确系发出“∪”的概率。
P(A1)=0.6 : 发出U
P(A2)=0.4 : 发出-
P(B1): 接收 U
P(B2): 接收-

P(B1|A1)=0.8 
P(B2|A1)=0.2

P(B1|A2)=0.1
P(B2|A2)=0.9

P(A1B1)=P(A1)P(B1|A1)

P ( A 1 ∣ B 1 ) = P ( A 1 ) P ( B 1 ∣ A 1 ) ∑ i = 1 n P ( A i ) P ( B 1 ∣ A i ) = P ( A 1 ) P ( B 1 ∣ A 1 ) P ( A 2 ) P ( B 1 ∣ A 2 ) + P ( A 2 ) P ( B 1 ∣ A 2 ) = 0.6 ∗ 0.8 0.6 ∗ 0.8 + 0.4 ∗ 0.1 P(A_1|B_1)=\frac{P(A_1)P(B_1|A_1)}{\sum_{i=1}^{n}{P(A_i)P(B_1|A_i)}}=\frac{P(A_1)P(B_1|A_1)}{{P(A_2)P(B_1|A_2)+P(A_2)P(B_1|A_2)}}=\frac{0.6*0.8}{0.6*0.8+0.4*0.1} P(A1B1)=i=1nP(Ai)P(B1Ai)P(A1)P(B1A1)=P(A2)P(B1A2)+P(A2)P(B1A2)P(A1)P(B1A1)=0.60.8+0.40.10.60.8
6. 朴素贝叶斯分类

朴素贝叶斯分类的正式定义如下:

    1、设为一个待分类项x={a1,a2,..am},而每个a为x的一个特征属性。
  
  2、有类别集合y={y1,y2,y3,..yn}。
  3、计算。P(y1|x)P(y2|x)P(y3|x)      4、如果P(yt|x)=max(P(y1|x),P(y2|x),..P(yn|x)),则 x 属于 yt 类别。
  那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做:
    1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集。
    2、统计得到在各类别下各个特征属性的条件概率估计。即。
    3、如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导:
          
  因为分母对于所有类别为常数,因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的,所以有:
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值