【数据挖掘】数据挖掘总结 ( 拉普拉斯修正 | 贝叶斯分类器示例2 ) ★



参考博客 :





一、 贝叶斯分类器分类的流程



已知条件 :

已知样本 : 已知若干个样本

未知样本 : 给定 1 1 1 个未知样本 , 其有 4 4 4 个属性组成向量 X \rm X X , 样本的分类有两种 , Y \rm Y Y N \rm N N ; ( Yes / No )


分类步骤 :

计算两个概率 , 即

① 样本取值为 X \rm X X 向量时 , 分类为 Y \rm Y Y 的概率 , 公式为 P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y ) P ( X ) \rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)} P(YX)=P(X)P(XY)P(Y) , 其中 P ( X ∣ Y ) P ( Y ) \rm P(X | Y) P(Y) P(XY)P(Y) 含义是 : 样本分类 Y \rm Y Y 的概率 P ( Y ) \rm P(Y) P(Y) , 乘以 样本分类为 Y \rm Y Y 前提下样本取值 X \rm X X 时的概率 P ( X ∣ Y ) \rm P(X | Y) P(XY) , 是 P ( X Y ) \rm P(XY) P(XY) 共同发生的概率 ;

② 样本取值为 X \rm X X 向量时 , 分类为 N \rm N N 的概率 , 公式为 P ( N ∣ X ) = P ( X ∣ N ) P ( N ) P ( X ) \rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)} P(NX)=P(X)P(XN)P(N) , 其中 P ( X ∣ N ) P ( N ) \rm P(X | N) P(N) P(XN)P(N) 含义是 : 样本分类为 N \rm N N 的概率 P ( N ) \rm P(N) P(N) , 乘以 样本取值 N \rm N N 时的概率 P ( X ∣ N ) \rm P(X | N) P(XN) , 是 P ( X N ) \rm P(XN) P(XN) 共同发生的概率 ;

上述两个概率 , 哪个概率高 , 就将该样本分为哪个分类 ;


先验概率 : P ( Y ) \rm P(Y) P(Y) , P ( N ) \rm P(N) P(N) ;

后验概率 : P ( X ∣ Y ) \rm P(X | Y) P(XY) , P ( X ∣ N ) \rm P(X | N) P(XN) ;

公式中每个元素的含义参考 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )

上述两个公式 P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y ) P ( X ) \rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)} P(YX)=P(X)P(XY)P(Y) P ( N ∣ X ) = P ( X ∣ N ) P ( N ) P ( X ) \rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)} P(NX)=P(X)P(XN)P(N) , 分母都是 P ( X ) \rm P(X) P(X) , 只比较分子即可 , 其中先验概率 P ( Y ) \rm P(Y) P(Y) , P ( N ) \rm P(N) P(N) 很容易求得 , 重点是求两个后验概率 P ( X ∣ Y ) P ( Y ) \rm P(X | Y) P(Y) P(XY)P(Y) , P ( X ∣ N ) P ( N ) \rm P(X | N) P(N) P(XN)P(N) ;


后验概率 P ( X ∣ Y ) \rm P(X | Y) P(XY) 求法 : 针对 X \rm X X 向量中 4 4 4 个分量属性的取值 , 当样品类型是 Y \rm Y Y , 分量 1 1 1 取值为该分量属性时的概率 , 同理计算出 4 4 4 个分量属性对应的 4 4 4 个概率 , 最后将 四个概率相乘 ;

后验概率 P ( X ∣ Y ) \rm P(X | Y) P(XY) 再乘以先验概率 P ( Y ) \rm P(Y) P(Y) , 就是最终的 未知样本分类为 Y \rm Y Y 类型的概率 ;


最终对比样本 , ① 未知样本分类为 Y \rm Y Y 类型的概率 , ② 未知样本分类为 N \rm N N 类型的概率 , 哪个概率大 , 就分类为哪个类型 ;





二、 拉普拉斯修正



在计算后验概率 P ( X ∣ Y ) \rm P(X | Y) P(XY) 时 , 需要计算出 当样品类型是 Y \rm Y Y , X \rm X X 向量的 分量 1 1 1 取值为该分量属性时的概率 , 同理计算出 4 4 4 个分量属性对应的 4 4 4 个概率 , 最后将 四个概率相乘 ;

如果上述 4 4 4 个相乘的概率其中有一个是 0 0 0 , 那么最终结果肯定就是 0 0 0 , 这里需要避免这种情况 , 引入拉普拉斯修正 ;

直接上栗子 , 不扯公式 ;

如果计算时 , 9 9 9 个样本是购买商品的 , 但年龄都大于 30 30 30 , 计算过程如下 ;

P ( 年 龄 小 于 30 ∣ Y ) = 0 9 \rm P( 年龄小于 30 | Y) = \cfrac{0}{9} P(30Y)=90

拉普拉斯修正就是分子加 1 1 1 , 分母加上样本类型个数 2 2 2 ; ( 样本有两个类型 , Y \rm Y Y 购买商品 , N \rm N N 不购买商品 ) ;

P ( 年 龄 小 于 30 ∣ Y ) = 0 + 1 9 + 2 = 1 11 \rm P( 年龄小于 30 | Y) = \cfrac{0 + 1}{9 + 2} = \cfrac{1}{11} P(30Y)=9+20+1=111


注意是所有的分量的概率都要进行拉普拉斯修正 , 不能只修正这一个 ;


具体的详细的公式以及理论查看 【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 )





三、 贝叶斯分类器示例2



分类需求 : 根据 年龄 , 收入水平 , 级别 , 部门 , 人数 , 预测 " 年龄 31..35 31..35 31..35, 收入 41 k . . 45 k \rm 41k..45k 41k..45k , s y s t e m s \rm systems systems 部门 " 的员工级别 ;


年龄收入级别部门人数
31..35 31..35 31..35 46 k . . 50 k \rm 46k..50k 46k..50k s e n i o r \rm senior senior s a l e s \rm sales sales 30 30 30
26..30 26..30 26..30 26 k . . 30 k \rm 26k..30k 26k..30k j u n i o r \rm junior junior s a l e s \rm sales sales 40 \rm 40 40
31..35 31..35 31..35 31 k . . 35 k \rm 31k..35k 31k..35k j u n i o r \rm junior junior s a l e s \rm sales sales 40 \rm 40 40
21..25 21..25 21..25 46 k . . 50 k \rm 46k..50k 46k..50k j u n i o r \rm junior junior s y s t e m s \rm systems systems 20 \rm 20 20
31..35 31..35 31..35 66 k . . 70 k \rm 66k..70k 66k..70k s e n i o r \rm senior senior s y s t e m s \rm systems systems 5 \rm 5 5
26..30 26..30 26..30 46 k . . 50 k \rm 46k..50k 46k..50k j u n i o r \rm junior junior s y s t e m s \rm systems systems 3 \rm 3 3
41..45 41..45 41..45 66 k . . 45 k \rm 66k..45k 66k..45k s e n i o r \rm senior senior s y s t e m s \rm systems systems 3 \rm 3 3
36..40 36..40 36..40 46 k . . 50 k \rm 46k..50k 46k..50k s e n i o r \rm senior senior m a r k e t i n g \rm marketing marketing 10 \rm 10 10
31..35 31..35 31..35 41 k . . 45 k \rm 41k..45k 41k..45k j u n i o r \rm junior junior m a r k e t i n g \rm marketing marketing 4 \rm 4 4
46..50 46..50 46..50 36 k . . 40 k \rm 36k..40k 36k..40k s e n i o r \rm senior senior s e c r e t a r y \rm secretary secretary 4 \rm 4 4
26..30 26..30 26..30 26 k . . 30 k \rm 26k..30k 26k..30k j u n i o r \rm junior junior s e c r e t a r y \rm secretary secretary 6 \rm 6 6

未知样本 取值 X \rm X X 向量" 年龄 31..35 31..35 31..35, 收入 41 k . . 45 k \rm 41k..45k 41k..45k , s y s t e m s \rm systems systems 部门 " ;

未知样本 分类为 s e n i o r \rm senior senior ( 高级 ) 类型的概率 : P ( s e n i o r ∣ X ) = P ( X ∣ s e n i o r ) P ( s e n i o r ) P ( X ) \rm P(senior | X) = \cfrac{P(X|senior) P(senior)}{P(X)} P(seniorX)=P(X)P(Xsenior)P(senior)

未知样本 分类为 j u n i o r \rm junior junior ( 低级 ) 类型的概率 : P ( j u n i o r ∣ X ) = P ( X ∣ j u n i o r ) P ( j u n i o r ) P ( X ) \rm P(junior | X) = \cfrac{P(X|junior) P(junior)}{P(X)} P(juniorX)=P(X)P(Xjunior)P(junior)

上述两个概率的分母 P ( X ) \rm P(X) P(X) 是常数 , 对比时可以忽略 , 只需要对比分子即可 ;

先验概率 P ( s e n i o r ) = 52 165 \rm P(senior) = \cfrac{52}{165} P(senior)=16552 , P ( j u n i o r ) = 113 165 \rm P(junior) = \cfrac{113}{165} P(junior)=165113 , 52 52 52 个人是 s e n i o r \rm senior senior 级别 , 113 113 113 个人是 j u n i o r \rm junior junior 级别 ;

后验概率

P ( X ∣ s e n i o r ) = P ( 年 龄 31..35 ∣ s e n i o r ) × P ( 收 入 41 k . . 45 k ∣ s e n i o r ) × P ( 部 门 s y s t e m s ∣ s e n i o r ) = 8 52 × 35 52 × 0 52 \rm \begin{array}{lcl} \rm P(X|senior) &=& \rm P( 年龄 31..35 | senior) \times P( 收入 41k..45k | senior) \times P( 部门 systems | senior ) \\\\ &=& \cfrac{8}{52} \times \cfrac{35}{52} \times \cfrac{0}{52} \\ \end{array} P(Xsenior)==P(31..35senior)×P(41k..45ksenior)×P(systemssenior)528×5235×520

上述后验概率的结果为 0 \rm 0 0 , 需要进行 拉普拉斯修正 , 上述式子中的三个概率分子都需要 + 1 +1 +1 , 分母都需要 + 2 +2 +2 , 分母是分类的个数 , s e n i o r \rm senior senior j u n i o r \rm junior junior 两个分类 , 因此分母 + 2 +2 +2 ;

拉普拉斯修正后的结果 :

P ( X ∣ s e n i o r ) = 8 + 1 52 + 2 × 35 + 1 52 + 2 × 0 + 1 52 + 2 = 9 54 × 36 54 × 1 54 \rm \begin{array}{lcl} \rm P(X|senior) &=& \rm \cfrac{8 + 1}{52 + 2} \times \cfrac{35 + 1}{52 + 2} \times \cfrac{0 + 1}{52 + 2} \\\\ &=& \cfrac{9}{54} \times \cfrac{36}{54} \times \cfrac{1}{54} \\ \end{array} P(Xsenior)==52+28+1×52+235+1×52+20+1549×5436×541

P ( X ∣ j u n i o r ) = P ( 年 龄 31..35 ∣ j u n i o r ) × P ( 收 入 41 k . . 45 k ∣ j u n i o r ) × P ( 部 门 s y s t e m s ∣ j u n i o r ) = 23 113 × 44 113 × 4 113 \rm \begin{array}{lcl} \rm P(X|junior) &=& \rm P( 年龄 31..35 | junior) \times P( 收入 41k..45k | junior) \times P( 部门 systems | junior) \\\\ &=& \cfrac{23}{113} \times \cfrac{44}{113} \times \cfrac{4}{113} \\ \end{array} P(Xjunior)==P(31..35junior)×P(41k..45kjunior)×P(systemsjunior)11323×11344×1134

未知样本 分类为 Y \rm Y Y 类型的概率 分子 : P ( X ∣ s e n i o r ) P ( s e n i o r ) = 9 54 × 36 54 × 1 54 × 52 165 ≈ 0.0006 \rm P(X|senior) P(senior) = \cfrac{9}{54} \times \cfrac{36}{54} \times \cfrac{1}{54} \times \cfrac{52}{165} \approx 0.0006 P(Xsenior)P(senior)=549×5436×541×165520.0006

未知样本 分类为 N \rm N N 类型的概率 分子 : P ( X ∣ j u n i o r ) P ( j u n i o r ) = 23 113 × 44 113 × 4 113 × 113 165 ≈ 0.0024 \rm P(X|junior) P(junior) = \cfrac{23}{113} \times \cfrac{44}{113} \times \cfrac{4}{113} \times \cfrac{113}{165} \approx 0.0024 P(Xjunior)P(junior)=11323×11344×1134×1651130.0024


该样本分类 为 j u n i o r \rm junior junior , 是低级员工 ;

高斯朴素贝叶斯分类是一种基于概率统计的分类算法,在Python中有多种实现方法。其中一种实现方法可以在的博客文章中找到,该文章介绍了高斯朴素贝叶斯分类的原理和Python实现。另外,在的文章中也介绍了Python实现的朴素贝叶斯分类,并给出了具体的定义和使用技巧。 高斯朴素贝叶斯分类的原理是基于概率论中的贝叶斯定理,通过计算样本的概率来进行分类。在该分类中,假设每个特征的概率分布都服从高斯分布,即正态分布。具体来说,对于每个特征,根据训练数据计算出每个类别下该特征的均值和方差,然后通过高斯分布公式计算出样本在每个类别下的概率,最后根据概率大小进行分类。 高斯朴素贝叶斯分类的优点包括:简单、速度快、对于多分类问题有效、在分布独立的假设成立的情况下,效果较好。与逻辑回归相比,需要的样本量更少一些,并且对于类别型特征效果非常好。 然而,高斯朴素贝叶斯分类也存在一些缺点。例如,如果测试集中的某个类别变量特征在训练集中没有出现过,直接计算概率时会得到0,导致预测功能失效。为了解决这个问题,可以使用平滑技术,如拉普拉斯估计。此外,高斯朴素贝叶斯分类假设特征之间是独立的,在现实生活中这种假设很难成立。 高斯朴素贝叶斯分类在文本分类、垃圾文本过滤、情感分析等场景中应用广泛。对于文本相关的多分类实时预测,由于其简单和高效的特点,也被广泛应用。此外,高斯朴素贝叶斯分类和协同过滤是推荐系统中常用的组合,能够增强推荐的覆盖度和效果。 综上所述,高斯朴素贝叶斯分类在Python中有多种实现方法,可以根据具体的需求选择适合的方法进行使用。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [【概率图模型】(一)高斯朴素贝叶斯分类(原理+python实现)](https://blog.csdn.net/u013066730/article/details/125821190)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [Python实现的朴素贝叶斯分类示例](https://download.csdn.net/download/weixin_38721565/12871135)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值