机器学习-07-概率分类-朴素贝叶斯

贝叶斯公式:

p ( c ∣ x ) = p ( x ∣ c ) p ( c ) p ( x ) p(c|x)=\frac{p(x|c)p(c)}{p(x)} p(cx)=p(x)p(xc)p(c)
样本空间 S S S,里面有子样本空间 A A A B B B,其中 C C C A A A B B B 的交集

  • P ( C ) = P ( A B ) P(C)=P(AB) P(C)=P(AB) 代表 A A A B B B 同时发生的概率
  • P ( A ∣ B ) P(A|B) P(AB) 代表在 B 条件下 A 发生的概率:假设S=100,B=40,C=15,那么
    • P ( B ) = B S = 2 5 P(B)=\frac{B}{S}=\frac{2}{5} P(B)=SB=52
    • 记小 P ( c ) P(c) P(c)为C在B中发生的概率,那么 P ( c ) = 3 8 P(c)=\frac{3}{8} P(c)=83,那么
    • P ( A B ) = P ( C ) = P ( c ) ∗ P ( B ) = P ( A ∣ B ) ∗ P ( B ) = 3 8 ∗ 2 5 = 3 20 P(AB)=P(C)=P(c)*P(B)=P(A|B)*P(B)=\frac{3}{8}*\frac{2}{5}=\frac{3}{20} P(AB)=P(C)=P(c)P(B)=P(AB)P(B)=8352=203

同理: P ( A B ) = P ( A ∣ B ) ∗ P ( B ) = P ( B ∣ A ) ∗ P ( A ) P(AB)=P(A|B)*P(B)=P(B|A)*P(A) P(AB)=P(AB)P(B)=P(BA)P(A)
得出贝叶斯公式:
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B)=\frac{P(B|A)P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)
在这里插入图片描述

  • P(AB)为联合概率,AB同时发生的概率, P ( C ) P(C) P(C)
  • P(A|B)为条件概率,确定B发生后,A发生的概率, P ( c ) P(c) P(c)

应用场景

机器学习的一个重要应用就是文档的自动分类。

在文档分类中,整个文档(如一封电子邮件)是实例,而电子邮件中的某些元素则构成特征。我们可以观察文档中出现的词,并把每个词作为一个特征,而每个词的出现或者不出现作为该特征的值,这样得到的特征数目就会跟词汇表中的词的数目一样多。

朴素贝叶斯是上面介绍的贝叶斯分类器的一个扩展,是用于文档分类的常用算法。

工作原理

提取所有文档中的词条并进行去重
获取文档的所有类别
计算每个类别中的文档数目
对每篇训练文档: 
    对每个类别: 
        如果词条出现在文档中-->增加该词条的计数值(for循环或者矩阵相加)
        增加所有词条的计数值(此类别下词条总数)
对每个类别: 
    对每个词条: 
        将该词条的数目除以总词条数目得到的条件概率(P(词条|类别))
返回该文档属于每个类别的条件概率(P(类别|文档的所有词条)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值