python数据分析之朴素贝叶斯实践

1、概率基础
1.1 随机事件
  • 随机事件,指可能发生,也可能不发生的事件。
  • 例如,当我们抛硬币时,设出现正面为事件A,则事件A可能发生,也可能不发生。
1.2 样本空间
  • 样本空间,即我们进行随机试验时,所有可能结果构成的集合,习惯使用S表示。
1.3 概率
  • 概率,用来反映一个随机事件出现的可能性大小,习惯使用 P(A)来表示事件A的概率。

在这里插入图片描述

1.4 联合概率
  • 联合概率,指多个事件同时发生的概率,例如, P(AB) 表示事件A与事件B的联合概率。
1.5 条件概率
  • 条件概率,指在事件A发生的前提下,事件B发生的概率,使用 P(B|A)表示。

  • 关于条件概率,有以下一个重要的定义:
    在这里插入图片描述

  • 需要注意的是,P(B|A) 与 P(B) 是不同的,二者很可能也不相等。因为在事件A发生的前提下,会导致样本空间的收缩,从而会改变概率。

1.6 独立性
  • 如果两事件A、B, 满足 P(AB) = P(A)P(B) 则称A与B相互独立。
  • 因为 P(AB) = P(A)P(B|A),所以当两事件A,B独立时:P(B|A) = P(B)。
  • 当两个事件独立时,一个事件发生与否,对另外一个事件完全没有任何影响。
1.7 先验概率与后验概率
  • 由以往的数据分析而得到的概率,称为先验概率。
  • 当得到某些信息后,在先验概率的基础上进行修正,从而得到的概率,称为后验概率。
2、 全概率公式
  • 设实验的样本空间为S, A为E的事件,B1 ,B2 ,…,Bn 为S的一个划分(任意两个事件交集为空,所以事件并集为整个样本空间S),且P(Bi) > 0(i=1,2,…,n ),则以下式子称为全概率公式:

在这里插入图片描述

  • 有的时候, P(A) 可能不易求出,但是,我们可以在S上寻找一个划分(i=1,2,……),并且 Bi与P(A|Bi) 的概率容易获取,这样,我们就可以使用全概率公式来求解P(A)。

例子:假设张三逃课的概率是0.4,当张三逃课时李四逃课的概率是0.5,当张三上课时李四逃课的概率是0.3,那么李四逃课的概率是多少呢?
这种情况直接求李四逃课的概率不好求,就可以利用全概率公式进行求解:P(李四逃课)= 0.4 x 0.5 + 0.6 x 0.3

3、贝叶斯公式
  • 设实验的样本空间为S, A为E的事件,B1 ,B2 ,…,Bn 为S的一个划分(任意两个事件交集为空,所以事件并集为整个样本空间S),且P(A) > 0 ,P(Bi) >0 (i=1,2,…,n ),则以下式子称为贝叶斯公式:
    在这里插入图片描述

  • 贝叶斯公式的核心思维就是将求解 P(B|A) 的概率转换成求解 P(A|B) 的概率。有时候,求解P(B|A)难度较大,但是求解P(A|B)比较容易,在这样的情况下,我们就可以考虑应用贝叶斯公式进行转换,从而解决问题。

例子: 对以往数据分析结果表明,当机器调整得良好时,产品的合格率是为98%,而当机器发生某种故障时,其合格率为55%。每天早上机器开动时,机器调整良好的概率为95%。试求已知某日早上第一件产品是合格品时,机器调整良好的概率是多少?

设A为事件“产品合格”,B 为事件“机器调整良好”, ~B 为事件“机器发生故障” ,则P(B|A)即为在第一件产品合格下机器调整良好的概率,根据贝叶斯公式可将其转化为以B条件下A发生的概率进行求解,结合全概率公式即可得出答案:

在这里插入图片描述

这个例子中, 95%是由以往的数据分析而得到的概率 ,即为先验概率;而97%是在得知第一件产品是合格品时得到的概率,即为后验概率。

4、 朴素贝叶斯算法
  • 朴素贝叶斯算法是基于概率的分类算法,之所以称为“朴素”,是因为其假设特征之间是独立的, 且对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
  • 朴素贝叶斯算法设计比较简单,实际上使用的就是全概率公式与贝叶斯公式。
4.1 算法原理

(1)假设 x = {x1,x2,…,xn}为一个待分类项,x含有n个特征属性。

(2)假设类别集合 y={y1,y2,…,yn}

(3)想要预测待分类项x所属的类别y,则只需要计算x属于每个类别 y 的概率是多少,预测结果就是概率最大的那个类别,即我们要计算:

在这里插入图片描述

然而,有时候以上的概率我们并不容易求解,不过,根据贝叶斯公式,我们可以进行如下的转换:
在这里插入图片描述

(4) 因为朴素贝叶斯算法的前提假设为各个特征之间都是独立的,则 P(x1…xn) = P(x1)…P(xn),因此有:

在这里插入图片描述

(5)将(2)代入(1)式,可得:

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值