从极大似然估计到贝叶斯估计(小白自学版)

本文通过对比分析贝叶斯估计和极大似然估计在参数估计中的方法,以抛硬币为例,解释了两者原理,并讨论了先验知识在贝叶斯估计中的应用。最后概述了贝叶斯估计的一般解题步骤。
摘要由CSDN通过智能技术生成

今天在2023年数模国赛E试题范文中学习到了贝叶斯估计,这里结合曾经学过的极大似然估计对贝叶斯估计的理解和解题思路做出梳理。

本文仅供作者自身梳理使用,若作为参考,本文语言广泛通俗、缺乏学术性,烦请批评指正!

理论请参考:贝叶斯估计详解-CSDN博客文章浏览阅读7.7w次,点赞80次,收藏388次。贝叶斯估计 贝叶斯估计:从参数的先验知识和样本出发。 不同于ML估计,不再把参数θ看成一个未知的确定变量,而是看成未知的随机变量,通过对第i类样本Di的观察,使概率密度分布P(Di|θ)转化为后验概率P(θ|Di),再求贝叶斯估计。 假设:将待估计的参数看作符合某种先验概率分布的随机变量。 基本原理:_贝叶斯估计https://blog.csdn.net/zengxiantao1994/article/details/72889732

极大似然估计

本人认为极大似然估计比较容易理解一点,所以先从这里讲起。

我们假设这样一个情形:抛掷一个不均匀的硬币,结果只有正面和反面之分。我们连续抛掷10次,得到了“正正正正反反反反反反”的结果。问抛掷一次硬币正面的概率\theta是多少?

其实答案可以有很多种,但是总有一种是最佳的。那么,按照极大似然估计的方法,\theta的值应该是多少呢?

答案就是:当我们的样本(也就是上述实验结果)出现的概率最大的时候就是\theta的取值。如果是本次实验中出现的情况,那就是使得P(\theta)=\theta^4(1-\theta^6)取最大值的\theta就是我们所求的结果。通俗理解就是:既然我们的样本是最终的结果,那么他一定是所有出现情况下概率最大的那种。这就是极大似然估计。

这个例子中有如下的特点:

  1. 我们假设了其服从0-1分布;
  2. 但是分布的概率是未知的(那我们设正面的概率为\theta,反面就是1-\theta);
  3. 每一次抛硬币之间的结果并不相关。

在其他的极大似然函数当中,也要满足以上的部分特点:

  1. 变量的形式是已知的(比如说我们知道变量服从正态分布或者是0-1分布等等);
  2. 但是其中的参数是未知的(正态分布的均值和方差是未知的);
  3. 每一次抽样的结果是独立的。此时,D的分布函数为:

P(D|\theta)=\prod_{n=1}^{N}P(x_n|\theta)

即当\theta为某一值时所有独立事件概率的乘积,这个乘积随着\theta的变化而变化。

这样的话我们就可以用一个有带参(\theta)的函数表示出当前样本出现的概率P,然后求出当参数为多少时P的值最大的。这个参数的值就是极大似然估计的值。

贝叶斯估计

贝叶斯估计的目的和极大似然估计是相同的,都是为了解出已知分布的未知参数。但是两者对\theta应当是多少的衡量标准并不相同:通过极大似然估计,我们应该能够求出唯一的\theta使得P是最大值,比否定了其他\theta的取值;但贝叶斯估计则不然,其并不认为\theta应当是使得当前样本出现的概率最大时\theta的值,就像是上述抛硬币的例子,使得上述样本出现的概率最大的概率是0.6,但其实也可以是其他的值,比如0.5,但只是使得样本出现的概率相对较小而已。

既然\theta是未知的随机变量,那他也会有一定的分布函数或密度函数存在。

问题来了【求解的关键】

  1. \theta的分布函数和密度函数应当是什么形式?
  2. \theta的分布函数和密度函数之后,我们最终怎样确定\theta的值(即估计值\widehat{\theta})?

第一问比较难以解答,但是对于第二个问而言,我们基于平方误差损失函数将最终的值敲定为\thetad 期望,即:

\widehat{\theta} = \int \theta p(\theta|D)d\theta

(证明过程可以看前文的链接)

公式当中p(\theta|D)(密度函数)就是第一问提出的问题。当然,我们难以直接求解密度函数因为其函数值不具有意义,但是我们可以求解分布函数P(\theta|D)再将其转化为p(\theta|D)

【关键】如何求解P(\theta|D)

P(\theta|D)不好解,可以再次转变形式。利用贝叶斯公式(条件概率)转化关系为:

P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)}= \frac{P(D|\theta)P(\theta)}{\int P(D|\theta)P(\theta)d\theta}

问题就转化成了求:P(D|\theta)P(\theta)

P(D|\theta)求解在上文【极大似然估计】的部分已经提到了,其公式为:

P(D|\theta)=\prod_{n=1}^{N}P(x_n|\theta)

其现实意义就是在\theta取不同值时样本D出现的概率函数(以\theta为自变量,遵从已知分布)。

P(\theta)我们一般称之为先验概率,一般都是已知的,或者是通过和样本无关的信息当中确定。之于在建模当中如何确定P(\theta)还要进一步探索(留着以后解决)。

一个总结

上面的过程是倒着说的,从求解\theta的任务出发,接着确定其估计值的标准,再计算其分布函数。按照一般解题思路来讲应当如下:

这就是贝叶斯估计的全部内容啦!希望过几天还记得!

  • 10
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值