数学知识——概率统计（8）统计推断之参数估计：极大似然估计和最大后验概率

本文链接：https://blog.csdn.net/Robin_Pi/article/details/104304812

1. 统计推断

概念

统计推断(statistical inference)，是指根据带随机性的观测数据（样本）以及问题的条件和假定（模型），而对未知事物作出的、以概率形式表述的推断。
统计推断是在概率论的基础上依据样本的有关数据和信息，对未知总体的质量特性参数，做出合理的判断和估计。它的一般过程如图1所示。

在这里插入图片描述

问题表述

在数理统计学中，统计推断问题常表述为如下形式：所研究的问题有一个确定的总体，其总体分布未知或部分未知，通过从该总体中抽取的样本（观测数据）作出与未知分布有关的某种结论。例如，某一群人的身高构成一个总体，通常认为身高是服从正态分布的，但不知道这个总体的均值，随机抽部分人，测得身高的值，用这些数据来估计这群人的平均身高，这就是一种统计推断形式，即参数估计。若感兴趣的问题是“平均身高是否超过1.7（米）”，就需要通过样本检验此命题是否成立，这也是一种推断形式，即假设检验。由于统计推断是由部分（样本）推断整体（总体），因此根据样本对总体所作的推断，不可能是完全精确和可靠的，其结论要以概率的形式表达。统计推断的目的，是利用问题的基本假定及包含在观测数据中的信息，作出尽量精确和可靠的结论。

小结

参数估计

通过样本推断总体（根据样本数据，求解未知总体的统计特征）

【大白话解释】因为无法直接通过计算得出总体样本的统计特征，所以使用能够获取到的可观测小样本，利用小样本的特性来对总体进行一个估计和推断。比如：

使用样本的平均值 $\overline{x}$ 作为总体分布均值 μ 的估计；

样本均值是总体均值 μ 的无偏估计量，在多次重复实验中可以使均方误差最小。
使用样本的方差 S² 作为总体分布的方差 σ²；

但是对于小样本， S² 通常比方差分布低很多。由于这个糟糕的属性，人们将 S²
称为偏倚（biased）估计量。如果对于多次重复实验，一个估计量的预期误差总和（或均值）为0，那么这个估计量就是无偏的（unbiased）。

注：

参数估计：参数估计的分类包括点估计（包括矩估计和最大似然估计）和区间估计
参数（量）：参数（量）是总体分布中的参数，反映的是总体某方面特征的量。例如：合格率，均值，方差，中位数等。

抽样分布

抽样分布（sampling distribution）可以展示多次重复实验时估计值的变化。
人们通常用两种方法对抽样分布进行概括：
标准误差(standard error，SE) 和 置信区间（confidential interval，CI）

【大白话解释】实际上，参数估计之后得到估计值并不是总体样本真正的统计参数值（而且随着抽样的随机选择会导致这个估值产生变化，即抽样误差。）
我们的应对办法是，就把这些参数，比如平均值 $\overline{x}$ 和样本均方差 S² ，分别当做总体的均值 μ 和方差 σ²（作为假定值）。然后，进行多次抽样和实验，每次都算出抽样样本的平均值 $\overline{x}$ 和方差 S²，得到cdf，如下：
在这里插入图片描述然后比较抽样分布的估计值，比如 $\overline{x}$ 与假定值 μ 的区别。
有两种方法用来衡量两者的差距：标准误差（SE）和置信区间（CI）。
…

假设检验

2. 两大估计方法后面的学派

在统计领域，有两种对立的思想学派：贝叶斯学派和经典学派（也称频率学派），它们之间最重要的区别就是如何看待被估计的未知参数。

频率学派（经典学派）：最大似然估计；
贝叶斯学派：最大后验估计

贝叶斯学派的观点是将其看成是已知分布的随机变量，
而经典学派的观点是将其看成未知的待估计的常量。

概率的定义

对于概率，概率最早便被定义为多次试验中某随机事件出现的频率的极限，这是古典概率观（频率学派）。但是，有很多时候，概率无法用多次试验得到。而且很多时候，概率一词所描述的也并不是“对随机事件重复的频率”，而更像是对某种“不确定性”的度量。

与频率学派通过大量实验得到频率的极限不同，贝叶斯学派首先对未知概率有一个先验猜测，然后结合观测数据，修正先验，得到更为合理的后验概率。

本质区别

在根本上，频率学派和贝叶斯学派认知世界的方法不同。

频率学派倾向于从客观的角度去理解事物，将模型参数看成固定的，并设法使用最大似然（maximum likelihood）以及置信区间（confidence interval）求解那个固定参。
贝叶斯学派更愿意使用一个动态的眼光，带着主观的心态去认识事物，把参数看成是随机变量，认为其也符合某种分布。因此，他们只关心参数每一种取值的可能性，即参数的概率分布。

简单地说，频率学派与贝叶斯学派探讨“不确定性”的出发点与立足点不同。频率学派试图直接为产生“事件”的物理本质建立模型，比如频率学派主张不断地抛掷硬币，是想要从抛掷次数增大时正面朝上次数的变化，来得到反映硬币正反偏向性的某个物理参数p。而贝叶斯学派认为，也许根本不存在这个固定的物理参数p，反之，数据是比“物理本体”更为重要的真实存在，人们只能通过“观察者”得到的数据来进行猜测和推断。所以，他们想要为这个“猜想推断”过程中的数据变化建模，建模方法便是使用贝叶斯公式将模型参数不断更新。因此，就实用而言，贝叶斯学派也需要一定程度的反复试验，频率学派也照样使用贝叶斯公式。但是，他们对使用这些方法到达何种目的的观点有差别，对物质世界本体的哲学观不同。

总而言之，频率学派试图描述的是事物本体，而贝叶斯学派试图描述的是观察者知识状态在新的观测发生后如何更新，是世界观的差异影响到方法上的差异。

3. 参数估计的思想

下面介绍下两个派别主要的统计方法：最大似然估计和最大后验估计（贝叶斯方式）。

为什么需要上述的方法来进行参数估计？
因为现实中有很多情况，使用方差、均值等普通的标准统计量不能满足我们的实际需求，这个时候我们就需要一个最大似然估计量。
比如，假设我掷3次骰子，让你预测点数总和。如果你猜对了，就会赢得奖品，猜错了则空手而归。在这种情况下，使均方误差最小的估计值是10.5，但是这个猜测显然不靠谱，因为掷3次骰子得到的总点数不可能是10.5。此时，你希望作出最可能与实际值相符的估计，即最大似然估计量（maximum likelihood estimator，MLE）。如果你猜10或者11，正确的可能性最大，为1/8。
贝叶斯的方法也可以解决一些其它我们正常无法达到的目标。

3.1 最大似然估计（MLE）

最大似然估计，即我们希望做出最可能与实际值相符的估计

似然
“似然”（likelihood）与“概率”（probability）意思相近，都是指某种事件发生的可能性，但是在统计学中，“似然”和“概率”又有明确的区分：概率，用于在已知一些参数的情况下，预测接下来在观测上所得到的结果（比如，对应1万个样本结果）；似然，则是用于在已知某些观测所得到的结果时，对有关事物之性质的参数进行估值，如线性回归的中的权重参数。

概率描述了已知参数时的随机变量的输出结果；似然则用来描述已知随机变量输出结果时，未知参数的可能取值。例如，对于“一枚正反对称的硬币上抛十次”这种事件，我们可以问硬币落地时十次都是正面向上的“概率”是多少；而对于“一枚硬币上抛十次”，我们则可以问，这枚硬币正反面对称的“似然”程度是多少。
似然函数
给定输出x时，关于参数θ的似然函数 L(θ|x)（在数值上）等于给定参数θ后变量X的概率：L(θ|x)=P(X=x|θ)。

推演：（由贝叶斯公式推出）

p(θ) 为先验概率；p(θ|x) 为后验概率；
L(θ|x)=C · P(X=x|θ) 为似然函数，其中C为常数，因为似然函数的绝对数值没有意义；
p(x)为证据因子，有时也被称为边缘似然。

现在我们抛掷10枚这个硬币，结果显示，有2次出现正面，现在预测下这枚硬币出现正面的概率到底有多大呢？这就是一个似然问题，求解模型本身的一些属性。求解它需要假定误差分布满足高斯分布，然后求出似然函数，因为既然已经发生了，就直接求概率发生的最大值吧，既然求最值，自然就能求出出现正面的概率参数来了。

3.2 贝叶斯估计：最大后验概率（MAP）

（1）贝叶斯定理：
在这里插入图片描述

p(Θ)：先验分布。反映的是在观测到数据之前我们对待估计的参数 Θ
的了解和认识。
p(X|Θ)：在确定了参数的情况下，试验数据的概率分布。实际上这就是对实际观测数据的一种描述。
p(Θ|X)：后验分布。后验分布就是我们通过贝叶斯定理得到的最终的分析结果，反映的是在给定观测数据的基础上，我们对于参数的新的认知。说得更直白一点，就是最开始没有观测数据的时候，我们依据以往的经验赋予了参数一个先验分布，然后来了实际的观测数据之后，我们就对先验进行了更新，得到了这次分析过程的后验分布。
p(X)：边缘概率。这是一个与我们待估计的参数Θ无关的一个边缘概率值：p(X)=∑_θp(X,Θ)=∑_θp(X|Θ)p(Θ)，因此我们并不用太关心这个值，仅仅把它当做是后验概率 p(Θ|X) 计算过程中的归一化系数即可。

因此我们更需要聚焦的就是如下的这个正比关系： p(Θ|X) ∝ p(X|Θ)p(Θ)