参数估计
参数估计
根据待估计参数随时间变化与否可分为时常参数和时变参数,其中对时常参数的估计称为参数估计,对时变参数的估计称为状态估计,这里我们研究的是时常参数估计。对时常参数 x x x的估计问题可以表述为,已知观测 z ( j ) = h [ j , x , ω ( j ) ] , j = 1 , 2 , . . . , k z(j)=h[j,x,\omega(j)],~~~j=1,2,...,k z(j)=h[j,x,ω(j)], j=1,2,...,k其中, ω ( j ) \omega(j) ω(j)为噪声干扰,用已观测集合 Z k = { z ( 1 ) , z ( 2 ) , . . . , z ( k ) } Z^k=\{z(1),z(2),...,z(k)\} Zk={z(1),z(2),...,z(k)}进行估计,得到估计量为 x ^ ( k ) : = x ^ [ k , Z k ] \hat{x}(k):=\hat{x}[k,Z^k] x^(k):=x^[k,Zk]估计的误差表示为 x ~ : = x − x ^ \tilde{x}:=x-\hat{x} x~:=x−x^时常参数估计可以根据待估计量的随机性分为两大种类:非随机时常参数估计,随机时常参数估计。
- 非随机时常参数估计容易理解,参数是确定的未知常量,也被叫做非贝叶斯方法(Non-Bayesian Approach)
- 随机时常参数是指参数是个随机变量,参数取值遵循一定分布 p ( x ) p(x) p(x)但参数不随时间变化,也被称作贝叶斯方法(Bayesian Approach)
非随机时常参数估计
最大似然估计(Maximum Likelihood Estimator)
先观察一个概率,假定参数为 x x x条件下得到那组观测集合的概率为 Λ k ( x ) : = p ( Z k ∣ x ) \Lambda_k(x):=p(Z^k|x) Λk(x):=p(Zk∣x)参数的改变会使得观测也随之发生改变, x x x是因而 Z k Z^k Zk是果。在得到观测 Z k Z^k Zk结果时,反观是谁最可能导致这一现象的发生。这是最大似然估计的主要思想,似然也是可能的意思, Λ k ( x ) \Lambda_k(x) Λk(x)被称为似然函数。最大似然估计过程为:找到一个 x x x使得概率 p ( Z k ∣ x ) p(Z^k|x) p(Zk∣x)最大,数学描述为 x ^ = arg max p ( Z ∣ x ) \hat{x}=\text{arg} ~\text{max} ~p(Z|x) x^=arg max p(Z∣x)最大似然估计的解可以通过令似然函数求导等于零求得 d p ( Z ∣ x ) d x = 0 \dfrac{\text{d}p(Z|x)}{\text{d}x}=0 dxdp(Z∣x)=0不难看出,我们需要知道这一条件分布 p ( Z ∣ x ) p(Z|x) p(Z∣x),也就是,需要知道噪声分布的先验信息。
最小二乘估计(Least Squares Estimator)
另外一种处理非随机时常参数估计的方法是最小二乘估计,它所选取的最优准则为:最优估计 x ^ \hat{x} x^可以使所有量测的误差平方和总体达到最小,也就是 x ^ = arg min { ∑ j = 1 k [ z ( j ) − h ( j , x ) ] 2 } \hat{x}=\text{arg} ~\text{min} ~\left\{\sum_{j=1}^k[z(j)-h(j,x)]^2\right\} x^=arg min {j=1∑k[z(j)−h(j,x)]2}这里需要注意,最小二乘估计对噪声无任何假设条件,无需知道噪声的分布特性。有关更多最小二乘估计内容参见之前的笔记 最小二乘估计(Least squares estimation)
最大似然估计和最小二乘估计对比
最小二乘估计不依赖于有关噪声的先验分布信息,而最大似然估计需要已知条件概率分布
为了充分对比,假定最小二乘估计中噪声的分布也是已知的,且与最大似然估计中噪声分布一致,同为均值为0方差为
σ
2
\sigma^2
σ2的高斯噪声
ω
j
∼
N
(
0
,
σ
2
)
\omega_j\sim \mathcal{N}(0,\sigma^2)
ωj∼N(0,σ2)观测的分布为
z
(
j
)
∼
N
(
h
(
j
,
x
)
,
σ
2
)
z(j)\sim \mathcal{N}(h(j,x),\sigma^2)
z(j)∼N(h(j,x),σ2)似然函数为
Λ
k
(
x
)
=
p
(
Z
k
∣
x
)
=
p
[
z
(
1
)
,
z
(
2
)
,
.
.
.
,
z
(
k
)
∣
x
]
\Lambda_k(x)=p(Z^k|x)=p[z(1),z(2),...,z(k)|x]
Λk(x)=p(Zk∣x)=p[z(1),z(2),...,z(k)∣x]因为观测之间相互独立,等于各自条件分布的乘积
Λ
k
(
x
)
=
∏
j
=
1
k
N
(
z
(
j
)
;
h
(
j
,
x
)
,
σ
2
)
=
c
exp
(
−
1
2
σ
2
∑
j
=
1
k
[
z
(
j
)
−
h
(
j
,
x
)
]
2
)
\begin{aligned}\Lambda_k(x)&= \prod_{j=1}^k\mathcal{N}(z(j);h(j,x),\sigma^2)\\&=c~\text{exp}\left({-\frac{1}{2\sigma^2}\sum_{j=1}^k}[z(j)-h(j,x)]^2\right)\end{aligned}
Λk(x)=j=1∏kN(z(j);h(j,x),σ2)=c exp(−2σ21j=1∑k[z(j)−h(j,x)]2)可以看到使似然函数最大,也就是使指数项最小。这时候,最大似然估计等价于最小二乘估计。
随机时常参数估计
随机时常参数的估计也被称作贝叶斯估计,贝叶斯估计的准则为:使平均代价最小
估计的误差为
x
−
x
^
x-\hat{x}
x−x^,人们要为这种误差付出代价,代价用代价函数表示
c
(
x
,
x
^
)
c(x,\hat{x})
c(x,x^),常用的代价函数有
- 均匀代价函数
估计值在真值附近一个范围 Δ \Delta Δ内是不付出任何代价的,其余的代价满足均匀分布,即
c ( x , x ^ ) = { 1 , ∣ x − x ^ ∣ ≥ Δ 2 0 , ∣ x − x ^ ∣ < Δ 2 c(x,\hat{x})=\begin{cases} 1, & |x-\hat{x}|\ge\frac{\Delta}{2} \\ 0, & |x-\hat{x}|<\frac{\Delta}{2} \end{cases} c(x,x^)={1,0,∣x−x^∣≥2Δ∣x−x^∣<2Δ - 平方代价函数
误差的平方作为代价函数,即
c ( x , x ^ ) = ( x − x ^ ) 2 c(x,\hat{x})=(x-\hat{x})^2 c(x,x^)=(x−x^)2
平均代价可以由代价函数和先验分布函数得到 c ˉ = ∫ ∫ c ( x , x ^ ) p ( x , Z ) d x d Z = ∫ ∫ c ( x , x ^ ) p ( x ∣ Z ) p ( Z ) d x d Z = ∫ [ ∫ c ( x , x ^ ) p ( x ∣ Z ) d x ] p ( Z ) d Z = ∫ c ˉ ( x ^ ∣ Z ) p ( Z ) d Z \begin{aligned}\bar{c}&=\int\int c(x,\hat{x})p(x,Z)\text{d}x\text{d}Z\\&=\int\int c(x,\hat{x})p(x|Z)p(Z)\text{d}x\text{d}Z\\&=\int\left[\int c(x,\hat{x})p(x|Z)\text{d}x\right]p(Z)\text{d}Z=\int\bar{c}(\hat{x}|Z)p(Z)\text{d}Z\end{aligned} cˉ=∫∫c(x,x^)p(x,Z)dxdZ=∫∫c(x,x^)p(x∣Z)p(Z)dxdZ=∫[∫c(x,x^)p(x∣Z)dx]p(Z)dZ=∫cˉ(x^∣Z)p(Z)dZ使平均代价最小也就是使条件平均代价 c ˉ ( x ^ ∣ Z ) \bar{c}(\hat{x}|Z) cˉ(x^∣Z)最小
最大后验概率估计(Maximum A Posteriori Estimator)
后验概率的理解为,结果作为已知去寻求发生的原因,听起来和最大似然估计很像对不对,不妨带着疑问接着往下看。采取均匀代价函数,计算条件平均代价为
c
ˉ
(
x
^
∣
Z
)
=
∫
c
(
x
,
x
^
)
p
(
x
∣
Z
)
d
x
=
∫
−
∞
x
^
−
Δ
2
p
(
x
∣
Z
)
d
x
+
∫
x
^
+
Δ
2
∞
p
(
x
∣
Z
)
d
x
=
1
−
∫
x
^
−
Δ
2
x
^
+
Δ
2
p
(
x
∣
Z
)
d
x
\begin{aligned}\bar{c}(\hat{x}|Z)&=\int c(x,\hat{x})p(x|Z)\text{d}x\\&=\int_{-\infty}^{\hat{x}-\frac{\Delta}{2}}p(x|Z)\text{d}x+\int_{\hat{x}+\frac{\Delta}{2}}^{\infty}p(x|Z)\text{d}x\\&=1-\int_{\hat{x}-\frac{\Delta}{2}}^{\hat{x}+\frac{\Delta}{2}}p(x|Z)\text{d}x\end{aligned}
cˉ(x^∣Z)=∫c(x,x^)p(x∣Z)dx=∫−∞x^−2Δp(x∣Z)dx+∫x^+2Δ∞p(x∣Z)dx=1−∫x^−2Δx^+2Δp(x∣Z)dx
当
Δ
→
0
\Delta\to0
Δ→0时,
p
(
x
∣
Z
)
p(x|Z)
p(x∣Z)越大则条件平均代价越小,实则使后验概率最大,数学描述为
x
^
=
arg max
p
(
x
∣
Z
)
=
arg max
[
p
(
Z
∣
x
)
p
(
x
)
]
\hat{x}=\text{arg} ~\text{max} ~p(x|Z)=\text{arg} ~\text{max} ~[p(Z|x)p(x)]
x^=arg max p(x∣Z)=arg max [p(Z∣x)p(x)]上式用到了贝叶斯定理并且估计值和分母上的常数无关。相较于最大似然估计,这里多了一项
x
x
x的先验概率
p
(
x
)
p(x)
p(x)。
最大后验概率估计比最大似然估计有更多的先验信息,从这方面来看,最大后验概率估计要比最大似然估计准确的多,前提是先验信息是准确的。
最小均方误差估计(Minimum Mean Square Error Estimator)
采取平方代价函数,条件平均代价为
c
ˉ
(
x
^
∣
Z
)
=
∫
c
(
x
,
x
^
)
p
(
x
∣
Z
)
d
x
=
∫
−
∞
∞
(
x
−
x
^
)
2
p
(
x
∣
Z
)
d
x
\begin{aligned}\bar{c}(\hat{x}|Z)&=\int c(x,\hat{x})p(x|Z)\text{d}x\\&=\int_{-\infty}^{\infty}(x-\hat{x})^2p(x|Z)\text{d}x\end{aligned}
cˉ(x^∣Z)=∫c(x,x^)p(x∣Z)dx=∫−∞∞(x−x^)2p(x∣Z)dx最小均方误差估计便是找到使均方误差
E
[
(
x
−
x
^
)
2
∣
Z
]
=
∫
−
∞
∞
(
x
−
x
^
)
2
p
(
x
∣
Z
)
d
x
E[(x-\hat{x})^2|Z]=\int_{-\infty}^{\infty}(x-\hat{x})^2p(x|Z)\text{d}x
E[(x−x^)2∣Z]=∫−∞∞(x−x^)2p(x∣Z)dx最小的
x
x
x值
x
^
=
arg min
E
[
(
x
−
x
^
)
2
∣
Z
]
\hat{x}=\text{arg} ~\text{min} ~E[(x-\hat{x})^2|Z]
x^=arg min E[(x−x^)2∣Z]对均方误差求一阶导数为
d
c
ˉ
(
x
^
∣
Z
)
d
x
^
=
d
∫
−
∞
∞
(
x
−
x
^
)
2
p
(
x
∣
Z
)
d
x
d
x
^
=
−
2
∫
−
∞
∞
(
x
−
x
^
)
p
(
x
∣
Z
)
d
x
=
−
2
∫
−
∞
∞
x
p
(
x
∣
Z
)
d
x
+
2
x
^
∫
−
∞
∞
p
(
x
∣
Z
)
d
x
\begin{aligned}\dfrac{\text{d}\bar{c}(\hat{x}|Z)}{\text{d}\hat{x}}&=\dfrac{\text{d}\int_{-\infty}^{\infty}(x-\hat{x})^2p(x|Z)\text{d}x}{\text{d}\hat{x}}\\&=-2\int_{-\infty}^{\infty}(x-\hat{x})p(x|Z)\text{d}x\\&=-2\int_{-\infty}^{\infty}xp(x|Z)\text{d}x+2\hat{x}\int_{-\infty}^{\infty}p(x|Z)\text{d}x\end{aligned}
dx^dcˉ(x^∣Z)=dx^d∫−∞∞(x−x^)2p(x∣Z)dx=−2∫−∞∞(x−x^)p(x∣Z)dx=−2∫−∞∞xp(x∣Z)dx+2x^∫−∞∞p(x∣Z)dx其二阶导数大于零,令一阶导数等于零求得
x
^
=
∫
−
∞
∞
x
p
(
x
∣
Z
)
d
x
=
E
[
x
∣
Z
]
\hat{x}=\int_{-\infty}^{\infty}xp(x|Z)\text{d}x=E[x|Z]
x^=∫−∞∞xp(x∣Z)dx=E[x∣Z]最小均方误差的估计值为条件均值
最大后验概率估计与最小均方误差估计对比
假定参数 x x x是具有均值 x ˉ \bar{x} xˉ、方差为 σ x 2 \sigma_x^2 σx2的高斯随机变量,噪声 ω \omega ω满足零均值,方差为 σ ω 2 \sigma_\omega^2 σω2的高斯分布。并且参数与噪声是不相关的 z = x + ω z=x+\omega z=x+ω那么,量测的概率密度函数满足 p ( z ) = N ( z ; x ˉ , σ x 2 + σ ω 2 ) p(z)=\mathcal{N}(z;\bar{x},\sigma_x^2+\sigma_\omega^2) p(z)=N(z;xˉ,σx2+σω2)后验概率为 p ( x ∣ z ) = 1 2 π σ exp { − [ x − f ( z ) ] 2 2 σ 2 } p(x|z)=\dfrac{1}{\sqrt{2\pi}\sigma}\text{exp}\left\{-\dfrac{[x-f(z)]^2}{2\sigma ^2}\right\} p(x∣z)=2πσ1exp{−2σ2[x−f(z)]2}其中 σ = σ x 2 σ ω 2 σ x 2 + σ ω 2 f ( z ) = x ˉ + σ x 2 σ x 2 + σ ω 2 ( z − x ˉ ) \sigma=\dfrac{\sigma_x^2 \sigma_\omega^2}{\sigma_x^2+ \sigma_\omega^2}~~~f(z)=\bar{x}+\dfrac{\sigma_x^2}{\sigma_x^2+ \sigma_\omega^2}(z-\bar{x}) σ=σx2+σω2σx2σω2 f(z)=xˉ+σx2+σω2σx2(z−xˉ)最大后验概率估计值为 x ^ = f ( z ) \hat{x}=f(z) x^=f(z), p ( x ∣ z ) p(x|z) p(x∣z)在高斯分布下的条件均值也是 f ( z ) f(z) f(z)
若 x x x分布的方差为无限大,相当于无任何先验信息,最大后验估计的估计值为 z z z,与最大似然估计结果一致