参数估计（Parameter Estimation）

最新推荐文章于 2024-08-13 09:57:15 发布

朽木为萤

最新推荐文章于 2024-08-13 09:57:15 发布

阅读量2.3k

点赞数 1

分类专栏：估计理论随笔

本文链接：https://blog.csdn.net/buxinlegan/article/details/107480520

版权

估计理论随笔专栏收录该内容

5 篇文章 5 订阅

订阅专栏

参数估计

参数估计
非随机时常参数估计
随机时常参数估计

参数估计

根据待估计参数随时间变化与否可分为时常参数和时变参数，其中对时常参数的估计称为参数估计，对时变参数的估计称为状态估计，这里我们研究的是时常参数估计。对时常参数 $x$ 的估计问题可以表述为，已知观测 $z(j)=h[j,x,\omega(j)],~~~j=1,2,...,k$ 其中， $\omega(j)$ 为噪声干扰，用已观测集合 $Z^k=\{z(1),z(2),...,z(k)\}$ 进行估计，得到估计量为 $\hat{x}(k):=\hat{x}[k,Z^k]$ 估计的误差表示为 $\tilde{x}:=x-\hat{x}$ 时常参数估计可以根据待估计量的随机性分为两大种类：非随机时常参数估计，随机时常参数估计。

非随机时常参数估计容易理解，参数是确定的未知常量，也被叫做非贝叶斯方法（Non-Bayesian Approach）
随机时常参数是指参数是个随机变量，参数取值遵循一定分布 $p (x)$ 但参数不随时间变化，也被称作贝叶斯方法（Bayesian Approach）

非随机时常参数估计

最大似然估计（Maximum Likelihood Estimator）

先观察一个概率，假定参数为 $x$ 条件下得到那组观测集合的概率为 $\Lambda_k(x):=p(Z^k|x)$ 参数的改变会使得观测也随之发生改变， $x$ 是因而 $Z^k$ 是果。在得到观测 $Z^k$ 结果时，反观是谁最可能导致这一现象的发生。这是最大似然估计的主要思想，似然也是可能的意思， $\Lambda_k(x)$ 被称为似然函数。最大似然估计过程为：找到一个 $x$ 使得概率 $p(Z^k|x)$ 最大，数学描述为 $\hat{x}=\text{arg} ~\text{max} ~p(Z|x)$ 最大似然估计的解可以通过令似然函数求导等于零求得 $\dfrac{\text{d}p(Z|x)}{\text{d}x}=0$ 不难看出，我们需要知道这一条件分布 $p (Z ∣ x)$ ，也就是，需要知道噪声分布的先验信息。

最小二乘估计（Least Squares Estimator）

另外一种处理非随机时常参数估计的方法是最小二乘估计，它所选取的最优准则为：最优估计 $\hat{x}$ 可以使所有量测的误差平方和总体达到最小，也就是 $\hat{x}=\text{arg} ~\text{min} ~\left\{\sum_{j=1}^k[z(j)-h(j,x)]^2\right\}$ 这里需要注意，最小二乘估计对噪声无任何假设条件，无需知道噪声的分布特性。有关更多最小二乘估计内容参见之前的笔记最小二乘估计（Least squares estimation）

最大似然估计和最小二乘估计对比

最小二乘估计不依赖于有关噪声的先验分布信息，而最大似然估计需要已知条件概率分布
为了充分对比，假定最小二乘估计中噪声的分布也是已知的，且与最大似然估计中噪声分布一致，同为均值为0方差为 $\sigma^2$ 的高斯噪声 $\omega_j\sim \mathcal{N}(0,\sigma^2)$ 观测的分布为 $z(j)\sim \mathcal{N}(h(j,x),\sigma^2)$ 似然函数为 $\Lambda_k(x)=p(Z^k|x)=p[z(1),z(2),...,z(k)|x]$ 因为观测之间相互独立，等于各自条件分布的乘积 $\begin{aligned}\Lambda_k(x)&= \prod_{j=1}^k\mathcal{N}(z(j);h(j,x),\sigma^2)\\&=c~\text{exp}\left({-\frac{1}{2\sigma^2}\sum_{j=1}^k}[z(j)-h(j,x)]^2\right)\end{aligned}$ 可以看到使似然函数最大，也就是使指数项最小。这时候，最大似然估计等价于最小二乘估计。

随机时常参数估计

随机时常参数的估计也被称作贝叶斯估计，贝叶斯估计的准则为：使平均代价最小
估计的误差为 $x-\hat{x}$ ，人们要为这种误差付出代价，代价用代价函数表示 $c(x,\hat{x})$ ，常用的代价函数有

均匀代价函数
估计值在真值附近一个范围 $\Delta$ 内是不付出任何代价的，其余的代价满足均匀分布，即
$c(x,\hat{x})=\begin{cases} 1, & |x-\hat{x}|\ge\frac{\Delta}{2} \\ 0, & |x-\hat{x}|<\frac{\Delta}{2} \end{cases}$
平方代价函数
误差的平方作为代价函数，即
$c(x,\hat{x})=(x-\hat{x})^2$

平均代价可以由代价函数和先验分布函数得到 $\begin{aligned}\bar{c}&=\int\int c(x,\hat{x})p(x,Z)\text{d}x\text{d}Z\\&=\int\int c(x,\hat{x})p(x|Z)p(Z)\text{d}x\text{d}Z\\&=\int\left[\int c(x,\hat{x})p(x|Z)\text{d}x\right]p(Z)\text{d}Z=\int\bar{c}(\hat{x}|Z)p(Z)\text{d}Z\end{aligned}$ 使平均代价最小也就是使条件平均代价 $\bar{c}(\hat{x}|Z)$ 最小

最大后验概率估计（Maximum A Posteriori Estimator）

后验概率的理解为，结果作为已知去寻求发生的原因，听起来和最大似然估计很像对不对，不妨带着疑问接着往下看。采取均匀代价函数，计算条件平均代价为 $\begin{aligned}\bar{c}(\hat{x}|Z)&=\int c(x,\hat{x})p(x|Z)\text{d}x\\&=\int_{-\infty}^{\hat{x}-\frac{\Delta}{2}}p(x|Z)\text{d}x+\int_{\hat{x}+\frac{\Delta}{2}}^{\infty}p(x|Z)\text{d}x\\&=1-\int_{\hat{x}-\frac{\Delta}{2}}^{\hat{x}+\frac{\Delta}{2}}p(x|Z)\text{d}x\end{aligned}$
当 $\Delta\to0$ 时， $p (x ∣ Z)$ 越大则条件平均代价越小，实则使后验概率最大，数学描述为 $\hat{x}=\text{arg} ~\text{max} ~p(x|Z)=\text{arg} ~\text{max} ~[p(Z|x)p(x)]$ 上式用到了贝叶斯定理并且估计值和分母上的常数无关。相较于最大似然估计，这里多了一项 $x$ 的先验概率 $p (x)$ 。

最大后验概率估计比最大似然估计有更多的先验信息，从这方面来看，最大后验概率估计要比最大似然估计准确的多，前提是先验信息是准确的。

最小均方误差估计（Minimum Mean Square Error Estimator）

采取平方代价函数，条件平均代价为
$\begin{aligned}\bar{c}(\hat{x}|Z)&=\int c(x,\hat{x})p(x|Z)\text{d}x\\&=\int_{-\infty}^{\infty}(x-\hat{x})^2p(x|Z)\text{d}x\end{aligned}$ 最小均方误差估计便是找到使均方误差 $E[(x-\hat{x})^2|Z]=\int_{-\infty}^{\infty}(x-\hat{x})^2p(x|Z)\text{d}x$ 最小的 $x$ 值 $\hat{x}=\text{arg} ~\text{min} ~E[(x-\hat{x})^2|Z]$ 对均方误差求一阶导数为 $\begin{aligned}\dfrac{\text{d}\bar{c}(\hat{x}|Z)}{\text{d}\hat{x}}&=\dfrac{\text{d}\int_{-\infty}^{\infty}(x-\hat{x})^2p(x|Z)\text{d}x}{\text{d}\hat{x}}\\&=-2\int_{-\infty}^{\infty}(x-\hat{x})p(x|Z)\text{d}x\\&=-2\int_{-\infty}^{\infty}xp(x|Z)\text{d}x+2\hat{x}\int_{-\infty}^{\infty}p(x|Z)\text{d}x\end{aligned}$ 其二阶导数大于零，令一阶导数等于零求得 $\hat{x}=\int_{-\infty}^{\infty}xp(x|Z)\text{d}x=E[x|Z]$ 最小均方误差的估计值为条件均值

最大后验概率估计与最小均方误差估计对比

假定参数 $x$ 是具有均值 $\bar{x}$ 、方差为 $\sigma_x^2$ 的高斯随机变量，噪声 $\omega$ 满足零均值，方差为 $\sigma_\omega^2$ 的高斯分布。并且参数与噪声是不相关的 $z=x+\omega$ 那么，量测的概率密度函数满足 $p(z)=\mathcal{N}(z;\bar{x},\sigma_x^2+\sigma_\omega^2)$ 后验概率为 $p(x|z)=\dfrac{1}{\sqrt{2\pi}\sigma}\text{exp}\left\{-\dfrac{[x-f(z)]^2}{2\sigma ^2}\right\}$ 其中 $\sigma=\dfrac{\sigma_x^2 \sigma_\omega^2}{\sigma_x^2+ \sigma_\omega^2}~~~f(z)=\bar{x}+\dfrac{\sigma_x^2}{\sigma_x^2+ \sigma_\omega^2}(z-\bar{x})$ 最大后验概率估计值为 $\hat{x}=f(z)$ ， $p (x ∣ z)$ 在高斯分布下的条件均值也是 $f (z)$