朴素贝叶斯-连续型变量的概率估计

0. 前言

上一篇博文中,留下的问题是对于连续型变量的处理,将会在此篇博客中进一步说明。

1. 两种方法

  1. 分箱处理
    把每一个连续的属性离散化,即把连续型变量分成j个箱,将每个箱中的均值 x i ‾ \overline{x_i} xi看成一个特征 X i X_i Xi上的取值,再计算箱j中Y=1所占的比例,即P( x i {x_i} xi|Y=1)。但这种方法不好控制箱子的大小,如果箱子太小,就会因为样本太少而不能对P(X|Y)作出可靠的估计;如果箱子太大,会失去正确的决策边界。所以一般不采用这种方法
  2. 高斯分布
    假设连续变量服从某种概率分布,接着使用训练样本估计分布的参数,高斯分布通常被用来表示连续属性的类条件概率分布。
    高斯分布有2个参数,均值 μ \mu μ和方差 σ 2 \sigma^2 σ2,对于每个类 y i y_i yi,属性 X i X_i Xi的类条件概率为:
    在这里插入图片描述
    参数 μ i j {\mu_{ij}} μij可以用类 y i {y_i} yi的所有训练样本关于 X i {X_i} Xi的样本均值来估计;参数 σ i j 2 {\sigma_{ij}^2} σij2可以用训练样本的方差来估计。

在贝叶斯中,fit就是估计对应分布的参数,predict就是在该参数的分布中进行概率预测。

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值