贝叶斯估计

最新推荐文章于 2021-06-29 16:13:00 发布

jk大懒猫

最新推荐文章于 2021-06-29 16:13:00 发布

阅读量1.2k

点赞数

分类专栏：数学机器学习文章标签：概率论数理统计

本文链接：https://blog.csdn.net/u012074597/article/details/79713677

版权

本文探讨了贝叶斯估计方法，强调在实验前对未知参数已有先验知识的重要性。通过举例说明如何利用历史数据估计废品率，并讨论了在缺乏历史数据时如何确定先验分布。贝叶斯统计要求利用后验分布进行参数估计，文中以估计事件发生的概率为例，展示了贝叶斯估计与频率估计的区别，尤其是在小样本情况下贝叶斯估计的合理性。

摘要由CSDN通过智能技术生成

我们现在讨论的点估计问题，无论你用矩估计也好，用极大似然估计也好或其他方法也好，在我们心目中，未知参数 $\theta$ 简单地是一个未知数，在抽取样本之前，我们对 $\theta$ 没有任何了解，所有的信息全来自样本。

贝叶斯学派则不然，它的出发点是：在进行抽样之前，我们已对 $\theta$ 有一定的知识，叫做先验知识。这里“先验”的意思并非先验论，而只是表示这种知识是“在实验之前”就有了的，也有人把它叫做验前知识，即“在实验之前”的意思。

贝叶斯学派进一步要求：这种先验知识必须用 $\theta$ 的某种概率分布表达出来，这个概率分布就叫做 $\theta$ 的“先验分布”或“验前分布”。这个分布总结了我们在实验之前对未知参数 $\theta$ 的知识。

举一个例子，设某工厂每日生产一大批某种产品，我们想要估计当日的废品率 $\theta$ 。该厂以前已生产过很多批次产品，如果过去的检验有记录在，则它确实提供了关于废品率 $\theta$ 的一种有用信息，据此可以画出 $\theta$ 的密度曲线。

先验分布

图中， $h(\theta)$ 表示 $\theta$ 的密度函数 $(0\le\theta\le1)$ 。图（a）表示一个较好的情况： $h(\theta)$ 在 $\theta=0$ 附近很大，而当 $\theta$ 增加时下降很快。这表示该厂以往的废品率通常都很低。图（b）则表示一个不大好的情况：比较大的废品率出现的比率相当高。容易理解：这种关于 $\theta$ 的历史知识（即先验知识），在当前估计废品率 $\theta$ 时应当适当地加以使用，而不应弃之不顾。这种思想与我们日常处事的习惯符合：当我们面临一个问题时，除了当前的情况外，往往还要注意以往的先例和经验。

那么问题就来了：如果这个工厂以往没有记录，或甚至是一个新开工的工厂，该怎么办？贝叶斯统计有一个基本要求：你必须设法去定出这样一个 $h(\theta)$ ，甚至处于你自己的主管认识也可以，这是问题中一个必备的要素。正是在这一点上，贝叶斯统计遭到不少的反对和批评。

现在我们转到下一个问题：已定下了先验密度之后，怎样去得出参数 $\theta$ 的估计？

设总体样本有概率密度 $f(X,\theta)$ (或概率函数，若总体分布为离散的)，从这个总体中抽样本 $X_1,\cdots,X_n$ ，则这组样本的密度为 $f(X_1,\theta)\cdots f(X_n,\theta)$ 。它可视为在给定 $\theta$ 值时， $(X_1,\cdots,X_n)$ 的密度。那么 (θ,X1,⋯