从极大似然估计到贝叶斯估计（小白自学版）

Adalovles

于 2024-02-24 00:32:18 发布

阅读量903

点赞数 10

文章标签：算法

本文链接：https://blog.csdn.net/Adalovles/article/details/136264212

版权

本文通过对比分析贝叶斯估计和极大似然估计在参数估计中的方法，以抛硬币为例，解释了两者原理，并讨论了先验知识在贝叶斯估计中的应用。最后概述了贝叶斯估计的一般解题步骤。

摘要由CSDN通过智能技术生成

今天在2023年数模国赛E试题范文中学习到了贝叶斯估计，这里结合曾经学过的极大似然估计对贝叶斯估计的理解和解题思路做出梳理。

本文仅供作者自身梳理使用，若作为参考，本文语言广泛通俗、缺乏学术性，烦请批评指正！

理论请参考：贝叶斯估计详解-CSDN博客文章浏览阅读7.7w次，点赞80次，收藏388次。贝叶斯估计贝叶斯估计：从参数的先验知识和样本出发。不同于ML估计，不再把参数θ看成一个未知的确定变量，而是看成未知的随机变量，通过对第i类样本Di的观察，使概率密度分布P(Di|θ)转化为后验概率P(θ|Di)，再求贝叶斯估计。假设：将待估计的参数看作符合某种先验概率分布的随机变量。基本原理：_贝叶斯估计https://blog.csdn.net/zengxiantao1994/article/details/72889732

极大似然估计

本人认为极大似然估计比较容易理解一点，所以先从这里讲起。

我们假设这样一个情形：抛掷一个不均匀的硬币，结果只有正面和反面之分。我们连续抛掷10次，得到了“正正正正反反反反反反”的结果。问抛掷一次硬币正面的概率 $\theta$ 是多少？

其实答案可以有很多种，但是总有一种是最佳的。那么，按照极大似然估计的方法， $\theta$ 的值应该是多少呢？

答案就是：当我们的样本（也就是上述实验结果）出现的概率最大的时候就是 $\theta$ 的取值。如果是本次实验中出现的情况，那就是使得 $P(\theta)=\theta^4(1-\theta^6)$ 取最大值的 $\theta$ 就是我们所求的结果。通俗理解就是：既然我们的样本是最终的结果，那么他一定是所有出现情况下概率最大的那种。这就是极大似然估计。

这个例子中有如下的特点：

我们假设了其服从0-1分布；
但是分布的概率是未知的（那我们设正面的概率为 $\theta$ ,反面就是1- $\theta$ )；
每一次抛硬币之间的结果并不相关。

在其他的极大似然函数当中，也要满足以上的部分特点：

变量的形式是已知的（比如说我们知道变量服从正态分布或者是0-1分布等等）；
但是其中的参数是未知的（正态分布的均值和方差是未知的）；
每一次抽样的结果是独立的。此时，D的分布函数为：

$P(D|\theta)=\prod_{n=1}^{N}P(x_n|\theta)$

即当 $\theta$ 为某一值时所有独立事件概率的乘积，这个乘积随着 $\theta$ 的变化而变化。

这样的话我们就可以用一个有带参（ $\theta$ ）的函数表示出当前样本出现的概率P，然后求出当参数为多少时P的值最大的。这个参数的值就是极大似然估计的值。

贝叶斯估计

贝叶斯估计的目的和极大似然估计是相同的，都是为了解出已知分布的未知参数。但是两者对 $\theta$ 应当是多少的衡量标准并不相同：通过极大似然估计，我们应该能够求出唯一的 $\theta$ 使得P是最大值，比否定了其他 $\theta$ 的取值；但贝叶斯估计则不然，其并不认为 $\theta$ 应当是使得当前样本出现的概率最大时 $\theta$ 的值，就像是上述抛硬币的例子，使得上述样本出现的概率最大的概率是0.6，但其实也可以是其他的值，比如0.5，但只是使得样本出现的概率相对较小而已。

既然 $\theta$ 是未知的随机变量，那他也会有一定的分布函数或密度函数存在。

问题来了【求解的关键】：