二、 最大似然估计和贝叶斯参数估计

在朴素贝叶斯分类器中,我们是利用先验概率 P ( c ) P(c) P(c) 和 类条件概率密度 p ( x ∣ c ) p(x|c) p(xc) 来设计最优分类器,但是在实际应用中,通常是拿不到概率结构的全部知识的,因此我们就需要利用这些训练样本来估计问题中涉及的先验概率和条件密度函数,并把估计得结果当作实际地先验概率和条件密度,最后设计分类器。估计先验概率比较容易,最大的困难在于类条件概率密度,主要问题在于:
(1)已有的训练样本数太少
(2)当特征向量 x x x 的维度较大时,会产生严重的计算复杂度。

但是,如果参数的个数已知,并且先验知识允许把条件概率密度进行参数化,那么问题的难度就可以显著降低。例如,我们假设 p ( x ∣ c ) p(x|c) p(xc) 是一个多元正态分布,均值为 μ \mu μ,协方差矩阵为 ∑ i \sum_i i,这样,就把问题从估计完全未知的概率密度 p ( x ∣ c ) p(x|c) p(xc) ,转化为估计参数 μ \mu μ ∑ i \sum_i i

参数估计是统计学的经典问题,最常用和最有效的两种方法为:最大似然估计 和 贝叶斯估计。这两种方法的本质有很大区别:
(1)最大似然估计把待估计得参数看作是确定性的量,只是取值未知,最佳估计就是使已观测样本(即训练数据)的概率最大的值;
(2)贝叶斯估计则把待估计得参数看成是符合某种先验概率分布的随机变量。

1 最大似然估计(Maximum Likelihood Estimation, MLE)

最大似然估计得优点:

  • 在训练样本增多时,收敛的非常好;
  • 通常比其他方法简单

基本原理

假设样本所属的类别一共有 c c c 个,则共有 c c c 个样本集 D i , D 2 , . . . , D c D_i, D_2, ..., D_c Di,D2,...,Dc,对其中任意一个样本集 D j D_j Dj 中的样本,都是独立的根据类条件概率密度函数 p ( x ∣ w j ) p(x|w_j) p(xwj) 来抽取的。因此,每一个样本集上的样本都是独立同分布的随机变量,假设每个类条件概率密度 p ( x ∣ c j ) p(x|c_j) p(xcj) 的形式是已知的,未知的是具体的参数向量 θ j \theta_j θj 的值。例如,若假设 p ( x ∣ c j ) p(x|c_j) p(xcj) 服从多维正态分布,即, p ( x ∣ c j ) ∼ N ( μ j , ∑ j ) p(x|c_j)\sim N(\mu_j, \sum_j) p(xcj)N(μj,j),则参数向量 θ j \theta_j

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值