参数估计(Parameter Estimation)

参数估计

根据待估计参数随时间变化与否可分为时常参数和时变参数,其中对时常参数的估计称为参数估计,对时变参数的估计称为状态估计,这里我们研究的是时常参数估计。对时常参数 x x x的估计问题可以表述为,已知观测 z ( j ) = h [ j , x , ω ( j ) ] ,     j = 1 , 2 , . . . , k z(j)=h[j,x,\omega(j)],~~~j=1,2,...,k z(j)=h[j,x,ω(j)],   j=1,2,...,k其中, ω ( j ) \omega(j) ω(j)为噪声干扰,用已观测集合 Z k = { z ( 1 ) , z ( 2 ) , . . . , z ( k ) } Z^k=\{z(1),z(2),...,z(k)\} Zk={z(1),z(2),...,z(k)}进行估计,得到估计量为 x ^ ( k ) : = x ^ [ k , Z k ] \hat{x}(k):=\hat{x}[k,Z^k] x^(k):=x^[k,Zk]估计的误差表示为 x ~ : = x − x ^ \tilde{x}:=x-\hat{x} x~:=xx^时常参数估计可以根据待估计量的随机性分为两大种类:非随机时常参数估计,随机时常参数估计。

  • 非随机时常参数估计容易理解,参数是确定的未知常量,也被叫做非贝叶斯方法(Non-Bayesian Approach)
  • 随机时常参数是指参数是个随机变量,参数取值遵循一定分布 p ( x ) p(x) p(x)但参数不随时间变化,也被称作贝叶斯方法(Bayesian Approach)

非随机时常参数估计

最大似然估计(Maximum Likelihood Estimator)

先观察一个概率,假定参数为 x x x条件下得到那组观测集合的概率为 Λ k ( x ) : = p ( Z k ∣ x ) \Lambda_k(x):=p(Z^k|x) Λk(x):=p(Zkx)参数的改变会使得观测也随之发生改变, x x x是因而 Z k Z^k Zk是果。在得到观测 Z k Z^k Zk结果时,反观是谁最可能导致这一现象的发生。这是最大似然估计的主要思想,似然也是可能的意思, Λ k ( x ) \Lambda_k(x) Λk(x)被称为似然函数。最大似然估计过程为:找到一个 x x x使得概率 p ( Z k ∣ x ) p(Z^k|x) p(Zkx)最大,数学描述为 x ^ = arg max  p ( Z ∣ x ) \hat{x}=\text{arg} ~\text{max} ~p(Z|x) x^=arg max p(Zx)最大似然估计的解可以通过令似然函数求导等于零求得 d p ( Z ∣ x ) d x = 0 \dfrac{\text{d}p(Z|x)}{\text{d}x}=0 dxdp(Zx)=0不难看出,我们需要知道这一条件分布 p ( Z ∣ x ) p(Z|x) p(Zx),也就是,需要知道噪声分布的先验信息。

最小二乘估计(Least Squares Estimator)

另外一种处理非随机时常参数估计的方法是最小二乘估计,它所选取的最优准则为:最优估计 x ^ \hat{x} x^可以使所有量测的误差平方和总体达到最小,也就是 x ^ = arg min  { ∑ j = 1 k [ z ( j ) − h ( j , x ) ] 2 } \hat{x}=\text{arg} ~\text{min} ~\left\{\sum_{j=1}^k[z(j)-h(j,x)]^2\right\} x^=arg min {j=1k[z(j)h(j,x)]2}这里需要注意,最小二乘估计对噪声无任何假设条件,无需知道噪声的分布特性。有关更多最小二乘估计内容参见之前的笔记 最小二乘估计(Least squares estimation)

最大似然估计和最小二乘估计对比

最小二乘估计不依赖于有关噪声的先验分布信息,而最大似然估计需要已知条件概率分布
为了充分对比,假定最小二乘估计中噪声的分布也是已知的,且与最大似然估计中噪声分布一致,同为均值为0方差为 σ 2 \sigma^2 σ2的高斯噪声 ω j ∼ N ( 0 , σ 2 ) \omega_j\sim \mathcal{N}(0,\sigma^2) ωjN(0,σ2)观测的分布为 z ( j ) ∼ N ( h ( j , x ) , σ 2 ) z(j)\sim \mathcal{N}(h(j,x),\sigma^2) z(j)N(h(j,x),σ2)似然函数为 Λ k ( x ) = p ( Z k ∣ x ) = p [ z ( 1 ) , z ( 2 ) , . . . , z ( k ) ∣ x ] \Lambda_k(x)=p(Z^k|x)=p[z(1),z(2),...,z(k)|x] Λk(x)=p(Zkx)=p[z(1),z(2),...,z(k)x]因为观测之间相互独立,等于各自条件分布的乘积 Λ k ( x ) = ∏ j = 1 k N ( z ( j ) ; h ( j , x ) , σ 2 ) = c  exp ( − 1 2 σ 2 ∑ j = 1 k [ z ( j ) − h ( j , x ) ] 2 ) \begin{aligned}\Lambda_k(x)&= \prod_{j=1}^k\mathcal{N}(z(j);h(j,x),\sigma^2)\\&=c~\text{exp}\left({-\frac{1}{2\sigma^2}\sum_{j=1}^k}[z(j)-h(j,x)]^2\right)\end{aligned} Λk(x)=j=1kN(z(j);h(j,x),σ2)=c exp(2σ21j=1k[z(j)h(j,x)]2)可以看到使似然函数最大,也就是使指数项最小。这时候,最大似然估计等价于最小二乘估计。

随机时常参数估计

随机时常参数的估计也被称作贝叶斯估计,贝叶斯估计的准则为:使平均代价最小
估计的误差为 x − x ^ x-\hat{x} xx^,人们要为这种误差付出代价,代价用代价函数表示 c ( x , x ^ ) c(x,\hat{x}) c(x,x^),常用的代价函数有

  • 均匀代价函数
    估计值在真值附近一个范围 Δ \Delta Δ内是不付出任何代价的,其余的代价满足均匀分布,即
    c ( x , x ^ ) = { 1 , ∣ x − x ^ ∣ ≥ Δ 2 0 , ∣ x − x ^ ∣ < Δ 2 c(x,\hat{x})=\begin{cases} 1, & |x-\hat{x}|\ge\frac{\Delta}{2} \\ 0, & |x-\hat{x}|<\frac{\Delta}{2} \end{cases} c(x,x^)={1,0,xx^2Δxx^<2Δ
  • 平方代价函数
    误差的平方作为代价函数,即
    c ( x , x ^ ) = ( x − x ^ ) 2 c(x,\hat{x})=(x-\hat{x})^2 c(x,x^)=(xx^)2

平均代价可以由代价函数和先验分布函数得到 c ˉ = ∫ ∫ c ( x , x ^ ) p ( x , Z ) d x d Z = ∫ ∫ c ( x , x ^ ) p ( x ∣ Z ) p ( Z ) d x d Z = ∫ [ ∫ c ( x , x ^ ) p ( x ∣ Z ) d x ] p ( Z ) d Z = ∫ c ˉ ( x ^ ∣ Z ) p ( Z ) d Z \begin{aligned}\bar{c}&=\int\int c(x,\hat{x})p(x,Z)\text{d}x\text{d}Z\\&=\int\int c(x,\hat{x})p(x|Z)p(Z)\text{d}x\text{d}Z\\&=\int\left[\int c(x,\hat{x})p(x|Z)\text{d}x\right]p(Z)\text{d}Z=\int\bar{c}(\hat{x}|Z)p(Z)\text{d}Z\end{aligned} cˉ=c(x,x^)p(x,Z)dxdZ=c(x,x^)p(xZ)p(Z)dxdZ=[c(x,x^)p(xZ)dx]p(Z)dZ=cˉ(x^Z)p(Z)dZ使平均代价最小也就是使条件平均代价 c ˉ ( x ^ ∣ Z ) \bar{c}(\hat{x}|Z) cˉ(x^Z)最小

最大后验概率估计(Maximum A Posteriori Estimator)

后验概率的理解为,结果作为已知去寻求发生的原因,听起来和最大似然估计很像对不对,不妨带着疑问接着往下看。采取均匀代价函数,计算条件平均代价为 c ˉ ( x ^ ∣ Z ) = ∫ c ( x , x ^ ) p ( x ∣ Z ) d x = ∫ − ∞ x ^ − Δ 2 p ( x ∣ Z ) d x + ∫ x ^ + Δ 2 ∞ p ( x ∣ Z ) d x = 1 − ∫ x ^ − Δ 2 x ^ + Δ 2 p ( x ∣ Z ) d x \begin{aligned}\bar{c}(\hat{x}|Z)&=\int c(x,\hat{x})p(x|Z)\text{d}x\\&=\int_{-\infty}^{\hat{x}-\frac{\Delta}{2}}p(x|Z)\text{d}x+\int_{\hat{x}+\frac{\Delta}{2}}^{\infty}p(x|Z)\text{d}x\\&=1-\int_{\hat{x}-\frac{\Delta}{2}}^{\hat{x}+\frac{\Delta}{2}}p(x|Z)\text{d}x\end{aligned} cˉ(x^Z)=c(x,x^)p(xZ)dx=x^2Δp(xZ)dx+x^+2Δp(xZ)dx=1x^2Δx^+2Δp(xZ)dx
Δ → 0 \Delta\to0 Δ0时, p ( x ∣ Z ) p(x|Z) p(xZ)越大则条件平均代价越小,实则使后验概率最大,数学描述为 x ^ = arg max  p ( x ∣ Z ) = arg max  [ p ( Z ∣ x ) p ( x ) ] \hat{x}=\text{arg} ~\text{max} ~p(x|Z)=\text{arg} ~\text{max} ~[p(Z|x)p(x)] x^=arg max p(xZ)=arg max [p(Zx)p(x)]上式用到了贝叶斯定理并且估计值和分母上的常数无关。相较于最大似然估计,这里多了一项 x x x的先验概率 p ( x ) p(x) p(x)

最大后验概率估计比最大似然估计有更多的先验信息,从这方面来看,最大后验概率估计要比最大似然估计准确的多,前提是先验信息是准确的。

最小均方误差估计(Minimum Mean Square Error Estimator)

采取平方代价函数,条件平均代价为
c ˉ ( x ^ ∣ Z ) = ∫ c ( x , x ^ ) p ( x ∣ Z ) d x = ∫ − ∞ ∞ ( x − x ^ ) 2 p ( x ∣ Z ) d x \begin{aligned}\bar{c}(\hat{x}|Z)&=\int c(x,\hat{x})p(x|Z)\text{d}x\\&=\int_{-\infty}^{\infty}(x-\hat{x})^2p(x|Z)\text{d}x\end{aligned} cˉ(x^Z)=c(x,x^)p(xZ)dx=(xx^)2p(xZ)dx最小均方误差估计便是找到使均方误差 E [ ( x − x ^ ) 2 ∣ Z ] = ∫ − ∞ ∞ ( x − x ^ ) 2 p ( x ∣ Z ) d x E[(x-\hat{x})^2|Z]=\int_{-\infty}^{\infty}(x-\hat{x})^2p(x|Z)\text{d}x E[(xx^)2Z]=(xx^)2p(xZ)dx最小的 x x x x ^ = arg min  E [ ( x − x ^ ) 2 ∣ Z ] \hat{x}=\text{arg} ~\text{min} ~E[(x-\hat{x})^2|Z] x^=arg min E[(xx^)2Z]对均方误差求一阶导数为 d c ˉ ( x ^ ∣ Z ) d x ^ = d ∫ − ∞ ∞ ( x − x ^ ) 2 p ( x ∣ Z ) d x d x ^ = − 2 ∫ − ∞ ∞ ( x − x ^ ) p ( x ∣ Z ) d x = − 2 ∫ − ∞ ∞ x p ( x ∣ Z ) d x + 2 x ^ ∫ − ∞ ∞ p ( x ∣ Z ) d x \begin{aligned}\dfrac{\text{d}\bar{c}(\hat{x}|Z)}{\text{d}\hat{x}}&=\dfrac{\text{d}\int_{-\infty}^{\infty}(x-\hat{x})^2p(x|Z)\text{d}x}{\text{d}\hat{x}}\\&=-2\int_{-\infty}^{\infty}(x-\hat{x})p(x|Z)\text{d}x\\&=-2\int_{-\infty}^{\infty}xp(x|Z)\text{d}x+2\hat{x}\int_{-\infty}^{\infty}p(x|Z)\text{d}x\end{aligned} dx^dcˉ(x^Z)=dx^d(xx^)2p(xZ)dx=2(xx^)p(xZ)dx=2xp(xZ)dx+2x^p(xZ)dx其二阶导数大于零,令一阶导数等于零求得 x ^ = ∫ − ∞ ∞ x p ( x ∣ Z ) d x = E [ x ∣ Z ] \hat{x}=\int_{-\infty}^{\infty}xp(x|Z)\text{d}x=E[x|Z] x^=xp(xZ)dx=E[xZ]最小均方误差的估计值为条件均值

最大后验概率估计与最小均方误差估计对比

假定参数 x x x是具有均值 x ˉ \bar{x} xˉ、方差为 σ x 2 \sigma_x^2 σx2的高斯随机变量,噪声 ω \omega ω满足零均值,方差为 σ ω 2 \sigma_\omega^2 σω2的高斯分布。并且参数与噪声是不相关的 z = x + ω z=x+\omega z=x+ω那么,量测的概率密度函数满足 p ( z ) = N ( z ; x ˉ , σ x 2 + σ ω 2 ) p(z)=\mathcal{N}(z;\bar{x},\sigma_x^2+\sigma_\omega^2) p(z)=N(z;xˉ,σx2+σω2)后验概率为 p ( x ∣ z ) = 1 2 π σ exp { − [ x − f ( z ) ] 2 2 σ 2 } p(x|z)=\dfrac{1}{\sqrt{2\pi}\sigma}\text{exp}\left\{-\dfrac{[x-f(z)]^2}{2\sigma ^2}\right\} p(xz)=2π σ1exp{2σ2[xf(z)]2}其中 σ = σ x 2 σ ω 2 σ x 2 + σ ω 2     f ( z ) = x ˉ + σ x 2 σ x 2 + σ ω 2 ( z − x ˉ ) \sigma=\dfrac{\sigma_x^2 \sigma_\omega^2}{\sigma_x^2+ \sigma_\omega^2}~~~f(z)=\bar{x}+\dfrac{\sigma_x^2}{\sigma_x^2+ \sigma_\omega^2}(z-\bar{x}) σ=σx2+σω2σx2σω2   f(z)=xˉ+σx2+σω2σx2(zxˉ)最大后验概率估计值为 x ^ = f ( z ) \hat{x}=f(z) x^=f(z) p ( x ∣ z ) p(x|z) p(xz)在高斯分布下的条件均值也是 f ( z ) f(z) f(z)

x x x分布的方差为无限大,相当于无任何先验信息,最大后验估计的估计值为 z z z,与最大似然估计结果一致

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

朽木为萤

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值