估计理论—从经典到贝叶斯

最新推荐文章于 2023-10-06 02:32:34 发布

weixin_30294021

最新推荐文章于 2023-10-06 02:32:34 发布

阅读量378

点赞数

原文链接：http://www.cnblogs.com/sea-wind/p/4117457.html

版权

本文内容主要参考Steven M.Kay的《统计信号处理基础——估计与检测理论》，该书中译本分类为“国外电子与通信教材系列”，应该会有一定局限性。本文是我看过该书后的一点点总结。

1.从最大似然估计看经典估计理论

最大似然估计（Maximum Likelihood Estimation，MLE）是一种很经典的估计方法。顾名思义，就是最大化似然函数的一种估计方法。似然函数（Likelihood function），即 $p(X|\theta)$ （其中$\theta$代表估计量，$X$代表观察值）。

对于不同的问题，似然函数是不相同的。但是从 $\hat{\theta}=argmin(-p(X|\theta))$ 可以看出，在求解的过程中，$\hat{\theta}$的值是完全取决于$X$的。这就是经典估计理论的特点——完全根据观测值和建立的模型（被估计量和观测值之间的关系）对参数进行估计。

对于MLE，有时能够求得其闭式解，更多时候需要采用迭代的方法求解。最大似然估计思路很简单，根据模型写出似然函数，之后求解最大值（当然往往这两个步骤做起来不是那么容易）。

当然，经典估计就是利用观测数据以及观测数据和被估计量之间的关系进行估计，所以完全有不同的思路解决这一估计问题。譬如，当观察到序列长度为$N$的一组序列 $\{ X(1),X(2),...,X(N) \}$ ，我们可以轻易求出序列的各阶矩的估计量 $E[x],E[x^2],...$ ，如果说 $\theta=f(E[x],E[x^2],...)$ ，那么就可根据这一关系估计。这就是矩估计的基本思路。

那么问题在于，在如此多的估计量中，如何确定估计量的好坏？

2.无偏和CRLB

观测量，必然是包含有很多偶然因素的。那么显然，对不同估计方法采用一局定胜负的方法是不合理的。假设$\theta$是要估计的参数，$\hat{\theta}$是某种估计方法下的估计结果。我们希望$\hat{\theta}=\theta$，虽然这是不切实际的。估计量$\hat{\theta}$的概率分布清楚的描绘了估计方法的性能，然而概率分布函数往往是无法对比的。庆幸的是——我们可以采用$\hat{\theta}$的各阶矩来描述其性能。我们希望

$\begin{matrix} E[\hat{\theta}]=\theta \\ E[\hat{\theta}^2]=\theta^2 \\ ... \end{matrix}$

第一条性质被称为“无偏性”，意味着样本均值等于真值。第二条基本是无法满足的，这是因为对于一个无偏估计而言，满足第二条即说明方差为0。那么自然，我们希望方差越小越好。至于更高阶的统计量，很多时候是用不上的，而且分析过于复杂，一般不进行讨论。

上述讨论表明，在经典估计方法中，我们希望估计量满足以下两个要求：无偏；方差足够小。这两个要求中有一个很模糊的定义——足够小。多小才够呢？前人给出了无偏估计方差的下界，应用最广泛的就是克拉美罗界（CRLB）

$var(\hat{\theta})\geq I^{-1}(\theta)\\ I(\theta)=-E[\frac{\partial^2In\.p(X|\theta) }{\partial \theta_i\partial \theta_j}]$

CRLB相关内容可以参考WIKI，对于Fisher信息我暂时也不太了解。MLE是渐进无偏且方差渐进趋于CRLB的估计，这种估计量也成为“渐进有效估计”，是准最佳的。然而，如果仅仅从无偏和方差考虑，MLE甚至是一个有偏估计。这并不能说明MLE是不好的，但这两个评判准则给了我们另一种思路——寻找具有无偏特性且最小方差的估计，这中估计量被称为MVU（最小方差无偏）。

如果无偏估计方差达到了CRLB，那么他就是MVU估计。问题是，如果达不到呢？有两条路可以选择

给观测量和被估计量之间加上人为的限定，使得在这一模型下，不存在达不到CRLB的情况；
利用其它手段，证明其他无偏估计的方差会更大，即这个估计的方差最小。

对应这两种不同的思路，有BLUE（最佳线性无偏估计量，加上了“线性”这一认为假定），以及采用充分统计量的MVU求解方法。

注：最小二乘估计感觉自己总结不清楚，这里不再涉及。

3.更好的估计量？

统计估计理论的经典方法——完全利用观测信息来确定估计量的取值。那么我们来举一个例子：

从一阶二阶统计特性来说，经典方法中有效估计是最佳的。如果被估计量是物体的质量。$\hat{\theta}$是有效估计，我们不能够推出$\hat{\theta}$。然而，质量是肯定不小于0的，$max \{ \hat{\theta},0 \} $一定是一个更好的估计量（此处的更好抛开了无偏之类的评判标准，指每次估计和真实值之间的差值更小）。

为什么我们能够轻易找到一个比经典方法中认为的“最佳”更佳的方法？因为我们知道被估计量是质量。这就充分的说明了仅仅根据似然函数之类的观测量来估计是不够的。先验知识有时候能带来很多用处。既然已经提到了“先验”，那么必然和贝叶斯定理脱不开关系了。贝叶斯定理的具体阐述可见从贝叶斯定理说开去，本文不再说明。

4.贝叶斯估计方法

经典估计方法中，从没有利用$\theta$任何先验知识来看。我们可以将其看作是一个未知的、固定的数。如果考虑贝叶斯定理，那么实际上$\theta$在没有任何观测数据下有一个先验的分布，我们记为$p(\theta)$。在不知道估计如何继续进行下去的时候，我们可以采用经典方法的思路。无偏应该是做不到了，因为$\theta$已经不能看成是常数，但我们可以仿照经典方法的最小均方误差MSE，写出贝叶斯方法下的BMSE。

$MSE=\int (\hat{\theta}-\theta)^2p(X|\theta)dX \\ BMSE=\int \int (\hat{\theta}-\theta)^2p(X,\theta)dXd\theta$

最显著的区别是一个是单次积分，而贝叶斯方法中采用了双重积分。然而内在的区别是，经典方法采用的是似然函数，贝叶斯方法利用的是后验概率。令BMSE最小的估计方法被称为MMSE，但我们也能看到，在估计中起决定作用的不是BMSE，而是后验概率。也就是说，我们可以将 $(\hat{\theta}-\theta)^2$ 换成 $| \hat{\theta}-\theta |$ 或是别的什么东西，得到不同的估计。作用在 $\hat{\theta}-\theta$ 上的函数可以是多种多样的，书中给它起了个好听的名字叫做“风险函数”（Risk Function，我不太喜欢这个名字，Cost Function可能会更明确的表达其作用）。

取不同的风险函数会得到不同的估计，譬如MMSE和MAP，此处不再讨论。总之，贝叶斯估计方法不像传统方法那样五花八门，就是最小化风险函数均值

$E[C(e)]=\int \int C(\theta - \hat{\theta}p(X,\theta))dXd\theta$

其中$C(e)$是一个满足离原点越远，取值越大（不会更小）的函数。（当然我也不确定是不是还有例外）

由于我倾向于将经典方法和贝叶斯方法理解文不同框架下的估计方法，它们的比较是毫无意义的。（或者说比较的结果取决于假设的条件）当时贝叶斯估计的性能衡量准则又该是怎样的呢？有一个叫做PCRLB（后验CRLB）的东西貌似是用来做这个的，但是贝叶斯方法远不如经典方法丰富，选择一个合适的风险函数求解就可以了，不是吗？

转载于:https://www.cnblogs.com/sea-wind/p/4117457.html