贝叶斯决策类条件概率密度估计:最大似然和贝叶斯参数估计

有监督参数估计是指已知分类器结构或函数形式,从训练样本中估计参数。

本文主要介绍贝叶斯决策(详见贝叶斯决策的过程)条件概率密度的有监督参数估计过程。方法有最大似然估计和贝叶斯参数估计法。

最大似然估计

假设参数为确定值,根据似然度最大进行最优估计。

给定数据 D 1 , D 2 . . . D c D_1,D_2...D_c D1,D2...Dc表示不同类别的样本。假设每类样本独立同分布(i.i.d. 万年不变的假设),用 D i D_i Di来估计 θ i θ_i θi,即对每个类求一个判别函数,用该类的样本来估计判别函数的参数。
贝叶斯决策过程
注意区分特征空间和参数空间。参数估计的任务是得到 p ( x ∣ w i ) p(x|w_i) p(xwi)的形式,是在参数空间进行的。不妨设特征空间为d维,参数空间p维。
为了估计参数,需要如下几个步骤:

  • 求似然(Likelihood) p ( D ∣ θ ) = ∏ k = 1 n p ( x k ∣ θ ) p(D|θ) =\prod_{k=1}^{n}p(x_k|θ) p(Dθ)=k=1np(xkθ)
    注意,上面这个式子针对的已经是具体的类别 w i w_i wi了,不要问 w w w参数去哪了。另外,这里的n代表样本数目,要和前面的类别数目c区分开。这个式子很好理解,即出现我们当前观测到的样本概率,求使它最大化的参数即可。
  • 最大化似然 max ⁡ θ p ( D ∣ θ ) → ▽ θ p ( D ∣ θ ) = 0 \max_θp(D|θ)→▽_θp(D|θ)=0 θmaxp(Dθ)θp(Dθ)=0
    这个梯度是在p维参数空间求解,即 ▽ θ p = [ ∂ ∂ θ 1 . . . . . . ∂ ∂ θ p ] ▽_θp= \begin{bmatrix} \frac{\partial}{\partialθ_1}\\ ...\\ ...\\ \frac{\partial}{\partialθ_p} \end{bmatrix} θp=θ1......θp
  • 求解梯度。可求解析解或梯度下降。(常用Log-Likelihood,易求解)
    在这里插入图片描述
    在这里插入图片描述

当先验 P ( θ ) P(\theta) P(θ)都相等时等同于最大后验概率(MAP)决策。

高斯密度最大似然估计

贝叶斯决策过程里给出的高斯密度假设为例,对它进行最大似然参数估计。首先假设 σ \sigma σ已知,对 μ \mu μ进行估计。

单点情况:
在这里插入图片描述

对于所有样本:
在这里插入图片描述

估计值即为观测样本均值。

再来看 μ \mu μ σ \sigma σ都未知的情况。设数据服从一维高斯分布, θ 1 = μ \theta_1=\mu θ1=μ θ 2 = σ 2 \theta_2=\sigma^2 θ2=σ2:
在这里插入图片描述
令梯度等于0可求得:
μ ^ = 1 n ∑ k = 1 n x k \hat{μ}=\frac{1}{n}\sum_{k=1}^nx_k μ^=n1k=1nxk
σ ^ 2 = 1 n ∑ k = 1 n ( x k − μ ^ ) 2 \hat{σ}^2=\frac1{n}\sum_{k=1}^n(x_k-\hat{μ})^2 σ^2=n1k=1n(xkμ^)2
多维情况, θ 2 = Σ \theta_2=\Sigma θ2=Σ
μ ^ = 1 n ∑ k = 1 n x k \hat{μ}=\frac{1}{n}\sum_{k=1}^nx_k μ^=n1k=1nxk
Σ ^ = 1 n ∑ k = 1 n ( x k − μ ^ ) ( x k − μ ^ ) T \hat{\Sigma}=\frac1{n}\sum_{k=1}^n(x_k-\hat{μ})(x_k-\hat{μ})^T Σ^=n1k=1n(xkμ^)(xkμ^)T

估计结果类似无偏估计。

贝叶斯参数估计

参数被视为随机变量,估计其后验分布

我们先来简化一下贝叶斯决策的条件概率密度形式。考虑训练样本对分类决策的影响,后验概率可写作:
在这里插入图片描述

首先由于先验概率一般可以事先得到,因此通常不考虑样本对它的影响。其次,我们使用的是有监督学习,训练样本自然都会分到各自所属的类中。基于这两点可简化公式,得到公式一
在这里插入图片描述

由此我们需处理的其实是c个独立的问题,那么条件概率密度可简写成c个 P ( x ∣ D ) P(x|D) P(xD),分别对它们进行估计。

下面引出参数分布估计的过程。假定参数形式已知,即已知 p ( x ∣ θ ) p(x|θ) p(xθ),为求 p ( x ∣ D ) p(x|D) p(xD)
p ( x ∣ D ) = ∫ p ( x , θ ∣ D ) d θ = ∫ p ( x ∣ θ , D ) p ( θ ∣ D ) d θ p(x|D)=\int{p(x,θ|D)}dθ \\ \qquad\qquad \qquad=\int{p(x|θ,D)p(θ|D)dθ} p(xD)=p(x,θD)dθ=p(xθ,D)p(θD)dθ
由于测试样本x(观测样本)和训练样本D的选取是独立的,因此可写成公式二
p ( x ∣ D ) = ∫ p ( x ∣ θ ) p ( θ ∣ D ) d θ \quad p(x|D)=\int{p(x|θ)p(θ|D)dθ} p(xD)=p(xθ)p(θD)dθ样本独立性是《模式分类第二版》里对这步变换做出的解释。对这一部分说一下我的理解。按书里说的x与D相互独立,那p(x|D)其实直接就可以简写成p(x),且 p ( θ ) p(\theta) p(θ)也假定已知(后面会说),直接
p ( x ) = ∫ p ( x ∣ θ ) p ( θ ) d θ \quad p(x)=\int{p(x|θ)p(θ)dθ} p(x)=p(xθ)p(θ)dθ不就能求了,为什么非要对条件概率密度引入D呢?

其实这样做的目的就是为了强行引入 p ( θ ∣ D ) p(\theta|D) p(θD)。别忘了 p ( x ∣ D ) p(x|D) p(xD)实际上是 p ( x ∣ ω , D ) p(x|\omega,D) p(xω,D),来自公式一。回顾一下公式一引入D的原因,是尽可能地利用已有的全部信息来估计后验概率 p ( ω ∣ x ) p(\omega|x) p(ωx),对 p ( x ∣ D ) p(x|D) p(xD)也是这样。即便训练样本对观测值x没有影响,但我们希望再引入一个受样本影响的reproducing density p ( θ ∣ D ) p(\theta|D) p(θD),让它影响类条件概率的分布。其实相当于重新构造了一个先验,并希望 p ( θ ∣ D ) p(\theta|D) p(θD) θ \theta θ的真实值附近有显著的尖峰(sharp)。通常可以用这个sharp逼近的 θ ^ \hat\theta θ^来替代真实值,有 p ( x ∣ D ) ≈ p ( x ∣ θ ^ ) p(x|D) ≈ p(x|\hat\theta) p(xD)p(xθ^)。如果估计值的置信度不高(用高斯分布来说即方差较大,sharp不明显。后面会说),也可以按 p ( θ ∣ D ) p(\theta|D) p(θD) θ \theta θ进行采样,带入 p ( x ∣ θ ) p(x|\theta) p(xθ)求平均:
在这里插入图片描述

总结一下,公式一公式二是贝叶斯决策和参数估计的两个核心部分。尤其是公式二,我们希望把 p ( x ∣ D ) p(x|D) p(xD) p ( θ ∣ D ) p(θ|D) p(θD)联系起来,那么已有的训练样本就能通过 p ( θ ∣ D ) p(θ|D) p(θD) p ( x ∣ D ) p(x|D) p(xD)施加影响。至此我们已经把有监督学习问题(原始分类问题)转换成了一个无监督的概率密度预测问题(估计 p ( θ ∣ D ) p(θ|D) p(θD)

高斯密度贝叶斯估计

对高斯密度假设进行贝叶斯参数估计。

考虑一维情况。 p ( x ∣ μ ) ∼ N ( μ , σ 2 ) p(x|\mu)\sim N(μ,σ^2) p(xμ)N(μσ2),假设 σ 2 σ^2 σ2已知,为了预测 p ( μ ∣ D ) p(μ|D) p(μD),写成:
p ( μ ∣ D ) = p ( D ∣ μ ) p ( μ ) ∫ p ( D ∣ μ ) p ( μ ) d μ p(μ|D)=\frac{p(D|μ)p(μ)}{\int{p(D|μ)p(μ)dμ}} p(μD)=p(Dμ)p(μ)dμp(Dμ)p(μ)
由于 p ( D ∣ μ ) = ∏ k = 1 n p ( x k ∣ μ ) p(D|\mu)=\prod_{k=1}^np(x_k|μ) p(Dμ)=k=1np(xkμ),则
p ( μ ∣ D ) = α ∏ k = 1 n p ( x k ∣ μ ) p ( μ ) p(μ|D)=\alpha\prod_{k=1}^np(x_k|μ)p(μ) p(μD)=αk=1np(xkμ)p(μ)
α \alpha α是原式分母,作为常数项。

假设 p ( μ ) ∼ N ( μ 0 , σ 0 2 ) p(μ)\sim N(μ_0,σ_0^2) p(μ)N(μ0σ02) μ 0 \mu_0 μ0 σ 0 2 \sigma_0^2 σ02已知。可以把 μ 0 \mu_0 μ0看作对 μ \mu μ的先验估计, σ 0 2 \sigma_0^2 σ02看作估计的不确定程度。做正态分布假设只是为了简化后面的数学运算。这一步的重点在于在参数估计过程中我们是已知参数先验概率密度 p ( μ ) p(\mu) p(μ)的。

公式展开:
在这里插入图片描述
与μ无关的因子都被归入 α \alpha α中。可见 p ( μ ∣ D ) p(μ|D) p(μD)仍符合高斯分布,对照标准形式 p ( μ ∣ D ) = 1 2 π σ n e x p ( − 1 2 ( μ − μ n ) 2 σ n 2 ) p(μ|D)=\frac{1}{\sqrt{2\pi}σ_n}exp(-\frac{1}{2}\frac{(\mu-μ_n)^2}{σ_n^2}) p(μD)=2π σn1exp(21σn2(μμn)2)可得
在这里插入图片描述
到目前为止,已经把先验知识 p ( μ ) p(\mu) p(μ)和训练样本信息 μ ^ n \hat\mu_n μ^n结合在一起,估计出了后验概率 p ( μ ∣ D ) p(\mu|D) p(μD)。把结果直观地写在一起:

在这里插入图片描述
在这个结果中, μ n \mu_n μn表示在观测到n个样本后,对参数 μ \mu μ真实值的最好估计, σ n 2 \sigma_n^2 σn2则代表这个估计的不确定性(前面对先验假设也是这么解释的,理解一下高斯分布对参数估计的理论意义)。 σ n 2 \sigma_n^2 σn2随着n的增大而减小,即增加训练样本后,对 μ \mu μ真实估计的置信度将逐渐提高,呈现一个sharp。这样的过程称为贝叶斯学习过程。

p ( μ ∣ D ) p(\mu|D) p(μD)代入
p ( x ∣ D ) = ∫ p ( x ∣ μ ) p ( μ ∣ D ) d μ p(x|D)=\int{p(x|μ)p(μ|D)dμ} p(xD)=p(xμ)p(μD)dμ
得出 p ( x ∣ D ) ∼ N ( μ n , σ 2 + σ n 2 ) p(x|D)\sim{N(μ_n,σ^2+σ_n^2)} p(xD)N(μnσ2+σn2)。因此,根据已知的 p ( x ∣ μ ) ∼ N ( μ , σ 2 ) p(x|μ)\sim{N(μ,σ^2)} p(xμ)N(μσ2),只要用 μ n μ_n μn替换μ, σ 2 + σ n 2 σ^2+σ_n^2 σ2+σn2替换 σ 2 σ^2 σ2即可完成参数估计。

我们观察到,当n趋于无穷时,贝叶斯参数估计与最大似然效果相同。(当然在实际问题当中样本往往是有限的,这里只是形式化地理解)

总结一下贝叶斯估计的一般过程:
在这里插入图片描述

最大似然和贝叶斯估计的比较

在上面的例子中,用贝叶斯参数估计与ML分别对条件概率密度 p ( x ∣ ω ) p(x|\omega) p(xω)进行估计,得到的虽然都是高斯分布形式,但这个过程中做的假设是完全不同的。 ML直接假定 p ( x ∣ ω ) p(x|\omega) p(xω)符合高斯分布,根据训练样本选取确定的参数 μ ^ \hat\mu μ^ σ ^ 2 \hat\sigma^2 σ^2。而贝叶斯估计方法是通过假设已知 p ( x ∣ θ ) p(x|θ) p(xθ) p ( μ ) p(\mu) p(μ)符合高斯分布,推出 p ( μ ∣ D ) p(\mu|D) p(μD)符合高斯分布, 进而根据公式二推出 p ( x ∣ D ) p(x|D) p(xD)符合高斯分布。这个分布的sharp作为估计的均值,随样本数增加而改变,且确信度逐渐升高。

高斯分布的例子相对来说有点抽象,《模式分类》里还给了一个简单的例子,比较好理解,尤其是这幅图:
在这里插入图片描述
非常有助于理解。贝叶斯估计在样本最大值之外还有一个拖尾,这就是考虑了先验 p ( θ ) p(\theta) p(θ)的结果,告诉我们在x=10附近,条件概率密度仍可能不为0。(详见书中例1 递归的贝叶斯学习)

总的来说,最大似然估计根据训练样本明确估计出最优参数值,而贝叶斯估计目标是求出参数的分布,类似于“参数为0.5的概率为0.8”。虽然在估计时模糊的结果(即近似正确)往往更有用,但贝叶斯估计计算复杂度较高,可理解性较差,因此最大似然估计应用更广泛。

  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。
### 回答1: 贝叶斯估计最大似然估计都是概率统计中的常见方法,它们在统计学和机器学习中都有广泛的应用。 贝叶斯估计最大似然估计都是用来估计概率分布中的参数的方法。其中,最大似然估计是根据样本数据来确定参数值,使得这些参数下的样本出现的概率最大;而贝叶斯估计则考虑了先验概率和后验概率,根据贝叶斯公式计算得到参数的后验分布,进而计算参数的期望值或最大后验概率。 最大似然估计通常用于数据量大、数据质量高、先验知识较少的情况下,是一个无偏估计;而贝叶斯估计则可以考虑先验知识,并对参数的不确定性进行建模,可以更加准确地估计参数值,但需要对先验分布进行假设,且计算比较复杂。 因此,在实际应用中,选择哪种方法取决于数据的性质、先验知识以及需要的精度等因素。 ### 回答2: 贝叶斯估计最大似然估计是统计学中常用的两种参数估计方法,它们的主要差异体现在以下几个方面: 1. 假设的不同:贝叶斯估计方法假设参数是一个未知的随机变量,而最大似然估计方法认为参数是一个确定的值。 2. 参数的表示方式:贝叶斯估计方法将参数表示为一个概率分布,即参数的后验分布,而最大似然估计方法将参数表示为一个点估计,即参数的估计值。 3. 数据处理:最大似然估计方法只利用样本数据本身的统计特性来估计参数,而贝叶斯估计方法结合了先验信息和样本数据的统计特性进行参数估计。 4. 置信区间的计算:最大似然估计方法主要关注参数的点估计,不涉及参数的置信区间的计算。而贝叶斯估计方法可以通过后验分布计算参数的置信区间。 5. 估计的稳定性:贝叶斯估计方法可以通过引入先验信息来提高参数估计的稳定性,尤其在样本数据较少或者噪声较大的情况下有较好的表现。而最大似然估计方法对于不满足大样本条件或者出现过拟合等问题时,估计结果可能不稳定。 综上所述,贝叶斯估计最大似然估计在估计方法的假设、参数表示方式、数据处理、置信区间计算以及估计的稳定性等方面存在差异。具体选择哪种方法取决于问题的背景和数据的特点。 ### 回答3: 贝叶斯估计最大似然估计是两种常用的参数估计方法,它们有着一些显著的差异。 首先,贝叶斯估计最大似然估计的目标不同。最大似然估计的目标是找到一个使得已观测数据在该参数下的概率最大化的参数值。而贝叶斯估计不仅关注已观测数据,还引入了先验概率,利用先验信息来更新参数的估计。 其次,贝叶斯估计得到的结果是一个后验分布,而最大似然估计得到的结果是一个点估计。贝叶斯估计通过贝叶斯定理将先验概率与似然函数相结合,得到参数的后验分布。这个后验分布能够在不同的先验信息下进行不同方案的比较,并提供了更全面的信息。而最大似然估计只给出一个点估计,无法提供参数的不确定性度量。 另外,贝叶斯估计不仅关注已观测数据,也关注参数本身。它可以通过引入先验概率来减小数据量小的情况下参数估计的方差。而最大似然估计则仅仅关注已观测数据,忽略了参数本身的信息。 最后,贝叶斯估计需要指定先验概率,而最大似然估计不需要。选择先验概率是贝叶斯估计中的一个关键问题,它可以根据领域知识或者过去的经验来确定。但是如果选择不当,会导致结果出现偏差。 综上所述,贝叶斯估计最大似然估计在目标、结果形式、参数不确定性度量和先验概率等方面存在差异。选择哪种估计方法应根据具体问题和可用信息的性质来决定。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值