P(Ci) 和P(Xi|Ci) 一般不直接使用样本的频率计算出来

朴素贝叶斯是一种常用的分类方法,尤其适用于离散型特征的数据集。算法基于贝叶斯公式和特征独立假设,通过拉普拉斯平滑解决概率计算中的零概率问题。文中介绍了朴素贝叶斯的工作原理,如何计算P(Ci)和P(Xi|Ci),并提供了使用Python实现朴素贝叶斯分类器的示例,展示了在西瓜数据集上的应用和性能评估。
摘要由CSDN通过智能技术生成

  摘要:
  
  朴素贝叶斯也是机器学习中一种非常常见的分类方法,对于二分类问题,并且数据集特征为离散型属性的时候,
  
  使用起来非常的方便。原理简单,训练效率高,拟合效果好。
  
  朴素贝叶斯
  
  贝叶斯公式:
  
  朴素贝叶斯之所以称这为朴素,是因为假设了各个特征是相互独立的,因此假定下公式成立:
  
  则朴素贝叶斯算法的计算公式如下:
  
  在实际计算中,上面的公式会做如下略微改动:
  
  由于某些特征属性的值P(Xi|Ci)可能很小,多个特征的p值连乘后可能被约等于0。可以公式两边取log然后变乘法为加法,避免类乘问题。
  
  P(Ci) 和P(Xi|Ci) 一般不直接使用样本的频率计算出来,一般会使用拉普拉斯平滑。
  
  上面公式中,Dc为该类别的频数,N表示所有类别的可能数。
  
  上面公式中,Dc,xi为该特征对应属性的频数,Dc为该类别的频数,Ni表示该特征的可能的属性数。
  
  对应的西瓜书数据集为
  
  色泽  根蒂  敲声  纹理  脐部  触感  好瓜
  
  青绿  蜷缩  浊响  清晰  凹陷  硬滑  是
  
  乌黑  蜷缩  沉闷  清晰  凹陷  硬滑  是
  
  乌黑  蜷缩  浊响  清晰  凹陷  硬滑  是
  
  青绿  蜷缩  沉闷  清晰  凹陷  硬滑  是
  
  浅白  蜷缩  浊响  清晰  凹陷  硬滑  是
  
  青绿  稍蜷  浊响  清晰  稍凹  软粘  是
  
  乌黑  稍蜷  浊响  稍糊  稍凹  软粘  是
  
  乌黑  稍蜷  浊响  清晰  稍凹  硬滑  是
  
  乌黑  稍蜷  沉闷  稍糊  稍凹  硬滑  否
  
  青绿  硬挺  清脆  清晰  平坦  软粘  否
  
  浅白  硬挺  清脆  模糊  平坦  硬滑  否
  
  浅白  蜷缩  浊响  模糊  平坦  软粘  否
  
  青绿  稍蜷  浊响  稍糊  凹陷  硬滑  否
  
  浅白  稍蜷  沉闷  稍糊  凹陷  硬滑  否
  
  乌黑  稍蜷  浊响  清晰  稍凹  软粘  否
  
  浅白  蜷缩  浊响  模糊  平坦  硬滑  否
  
  青绿  蜷缩  沉闷  稍糊  稍凹  硬滑  否
  
  python实现
  
  #encoding:utf-8
  
  import pandas as pd
  
  import numpy  as np

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值