线性估计 BLUE
文章目录
1. 问题引入
在之前的章节中,我们引入了克拉美罗界CRLB,用来评估使用最小方差无偏估计MVUE能够达到什么程度。在这之后,我们希望能够找到一些简单好用的方法,能够对数据进行估计。其中历史最悠久,使用最广泛的,就是线性估计了。
我们提出这样一个问题,下面这条曲线,是一组随时间变化的数据形成的,我们如何估计这条曲线的表达式呢?
我们观测的对象,其实由两部分组成,一部分是由其内部机制引起的数据变化,另一部分是由于噪声引起的数据变化。我们希望能够得到这组数据背后的变化规律,因此我们要对他进行估计。通过直觉,我们感觉这是一条直线,因此我们建立如下模型,进行参数估计
按理来说,直线的模型是,其中A和B是需要估计的参数
Z ( t ) = A + B t Z(t) = A +Bt Z(t)=A+Bt
但是实际上,我们的数据是包含噪声的,因此,我们在直线的基础上叠加一个随机噪声
Z ( t ) = A + B t + N ( t ) Z(t) = A +Bt +N(t) Z(t)=A+Bt+N(t)
我们对Z进行采样。其中\Delta t是采样间隔,得到以下的数据
Z 1 , . . . , Z n Z k = A + B ∗ k ∗ Δ t + N k , N k = N ( k Δ t ) Z_1,...,Z_n \quad \quad Z_k = A + B*k*\Delta t +N_k ,\quad N_k = N(k\Delta t) Z1,...,ZnZk=A+B∗k∗Δt+Nk,Nk=N(kΔt)
这样我们就有了一个模型,这是一个典型的线性模型。我们可以有很多种求解方法。下面,我们将采用不同思路进行线性模型的估计
2. 问题求解
2.1 线性拟合的方法进行参数求解
2.1.1 目标函数的确立
首先我们用线性拟合的方式进行求解,先把已知条件抄下来
Z 1 , . . . , Z n Z k = A + B ∗ k ∗ Δ t + N k , N k = N ( k Δ t ) Z_1,...,Z_n \quad \quad Z_k = A + B*k*\Delta t +N_k ,\quad N_k = N(k\Delta t) Z1,...,ZnZk=A+B∗k∗Δt+Nk,Nk=N(kΔt)
我们在每个点计算模型与采样之间的误差,然后把误差加在一起。这是一个与A和B都有关的函数
∑
k
=
1
n
(
Z
k
−
A
−
B
∗
k
∗
Δ
t
)
2
∼
g
(
A
,
B
)
\sum _{k=1}^n(Z_k -A -B*k*\Delta t)^2 \sim g(A,B)
k=1∑n(Zk−A−B∗k∗Δt)2∼g(A,B)
我们进行最优估计的原则就是,我们要让数据点与模型垂直距离的平方和最小
= > m i n [ g ( A , B ) ] => min [g(A,B)] =>min[g(A,B)]
直接从平方和开始计算非常麻烦,我们用更加流行的方法,我们这个模型变成向量的形式进行表示
- 采样数据Z的表示
Z = ( Z 1 , . . . Z n ) T Z = (Z_1,...Z_n)^T Z=(Z1,...Zn)T
- 估计量θ的表示
θ = ( A , B ) T \theta = (A,B)^T θ=(A,B)T
- 矩阵H的表示
假设H是一个nx2矩阵
H ∈ R n x 2 H = ( 1 Δ t . . . . . . 1 n Δ t ) H \in R^{nx2} \\ H=\begin{pmatrix} 1 & \Delta t \\ ... & ... \\ 1 & n \Delta t \end{pmatrix} H∈Rnx2H=⎝⎛1...1Δt...nΔt⎠⎞
- 噪声N的表示
N = ( N 1 , . . . , N n ) T N = (N_1,...,N_n)^T N=(N1,...,Nn)T
我们对模型进行向量化表示
Z
=
H
θ
+
N
(
1
)
Z = H \theta +N \quad\quad\quad(1)
Z=Hθ+N(1)
目标函数也进行向量化表示
g
(
θ
)
=
(
Z
−
H
θ
)
T
(
Z
−
H
θ
)
(
2
)
g(\theta) = (Z-H\theta)^T (Z-H\theta) \quad\quad\quad(2)
g(θ)=(Z−Hθ)T(Z−Hθ)(2)
g
(
θ
)
=
Z
T
∗
Z
−
θ
T
H
T
Z
−
Z
T
H
θ
+
θ
T
H
T
H
θ
(
3
)
g(\theta) = Z^T*Z - \theta^TH^TZ - Z^T H\theta+\theta^TH^TH\theta \quad\quad\quad(3)
g(θ)=ZT∗Z−θTHTZ−ZTHθ+θTHTHθ(3)
2.1.2 梯度的性质
因为我们需要用到矢量求梯度的性质,这里引入一些性质
矢量求梯度的结果。假设h是θ的函数,h是个矩阵或者矢量都行,则对其求梯度,结果就是其雅克比行列式
∇
θ
(
h
(
θ
)
)
=
(
∂
h
1
∂
θ
1
.
.
.
∂
h
1
∂
θ
n
.
.
.
.
.
.
.
.
.
∂
h
m
∂
θ
1
.
.
.
∂
h
m
∂
θ
n
)
\nabla_{\theta}(h(\theta)) = \begin{pmatrix} \frac{\partial h_1}{\partial \theta _1} & ...&\frac{\partial h_1}{\partial \theta _n} \\ ... & ... &... \\ \frac{\partial h_m}{\partial \theta _1} & ... & \frac{\partial h_m}{\partial \theta _n} \end{pmatrix}
∇θ(h(θ))=⎝⎛∂θ1∂h1...∂θ1∂hm.........∂θn∂h1...∂θn∂hm⎠⎞
因此有下式子成立
∇ θ ( θ T A ) = A \nabla_{\theta}(\theta^TA) = A ∇θ(θTA)=A
∇ θ ( A θ ) = A T \nabla_{\theta}(A \theta) = A^T ∇θ(Aθ)=AT
∇ θ ( θ T ∗ A ∗ θ ) = ( A + A T ) θ \nabla_{\theta}(\theta^T * A*\theta) = (A+A^T)\theta ∇θ(θT∗A∗θ)=(A+AT)θ
2.1.3 目标函数的求解
在了解了矢量的梯度的性质以后,我们继续求解目标函数
我们如果想要得到目标函数的最小值,就要另目标函数导数为0。这里实际上就是求的梯度
(
∂
g
∂
A
,
∂
g
∂
B
)
T
=
∇
θ
(\frac{\partial g}{\partial A } , \frac{\partial g}{\partial B } )^T = \nabla _{\theta}
(∂A∂g,∂B∂g)T=∇θ
我们分析一下这个式子
g
(
θ
)
=
Z
T
∗
Z
−
θ
T
H
T
Z
−
Z
T
H
θ
+
θ
T
H
T
H
θ
(
3
)
g(\theta) = Z^T*Z - \theta^TH^TZ - Z^T H\theta+\theta^TH^TH\theta \quad\quad\quad(3)
g(θ)=ZT∗Z−θTHTZ−ZTHθ+θTHTHθ(3)
这个式子有四项,第一项与θ无关,求梯度为0,后面的三项其实都是标量,对标量求梯度,得到的是矢量。并且后面的三项利用2.1.2中给的公式可以求,因此,求梯度可得
∇
θ
g
(
θ
)
=
−
∇
θ
(
θ
T
H
T
Z
)
−
∇
θ
(
Z
T
H
θ
)
+
∇
θ
(
θ
T
H
T
H
θ
)
−
2
(
H
T
Z
)
+
(
2
H
T
H
)
θ
\nabla _{\theta}g(\theta) = - \nabla_{\theta}(\theta^TH^TZ)- \nabla_{\theta}(Z^T H\theta) \\+ \nabla_{\theta}(\theta^TH^TH\theta) -2(H^TZ) + (2H^TH)\theta
∇θg(θ)=−∇θ(θTHTZ)−∇θ(ZTHθ)+∇θ(θTHTHθ)−2(HTZ)+(2HTH)θ
根据梯度为0可得
∇
θ
g
(
θ
)
=
−
2
(
H
T
Z
)
+
2
(
H
T
H
)
θ
=
0
\nabla _{\theta}g(\theta) = -2(H^TZ) + 2(H^TH)\theta =0
∇θg(θ)=−2(HTZ)+2(HTH)θ=0
( H T H ) θ = H T Z θ = ( H T H ) − 1 ( H T Z ) (H^TH)\theta = H^TZ \\ \theta = (H^TH)^{-1}(H^TZ) (HTH)θ=HTZθ=(HTH)−1(HTZ)
这个结果最早是由Gauss做出的,叫做最小二乘
最小二乘的前提HTH必须是可逆的,如果H的列矢量只差常数倍,则HTH就不可
2.2 最小方差无偏估计进行参数求解
在使用线性拟合进行求解的时候,我们完全没有用到噪声的信息,现在我们开始看看噪声会对估计产生什么影响。
使用最小方差无偏估计的时候,需要计算克拉美罗下界,第一步就要求解模型的联合分布,因此,计算克拉美罗下界的是有前提的,就是我们要知道模型的准确分布是什么样子的
在这里,我们假定噪声服从高斯分布
Z 1 , . . . , Z n − > Z k = A + B ∗ k ∗ Δ t + N k N k ∼ N ( 0 , σ 2 I ) Z_1,...,Z_n -> Z_k = A + B*k*\Delta t +N_k \\ N_k \sim N(0,\sigma^2 I) Z1,...,Zn−>Zk=A+B∗k∗Δt+NkNk∼N(0,σ2I)
这里我们依旧使用向量模型
Z = H θ + N Z = H \theta +N Z=Hθ+N
求一下克拉美罗下界
- step1:先写分布
f ( Z 1 , . . . , Z n ) = ( 1 2 ∗ π σ ) n e x p ( − 1 2 σ 2 ( Z − H θ ) T ( Z − H θ ) ) f(Z_1,...,Z_n) =(\frac{1}{\sqrt{2*\pi}\sigma})^nexp(-\frac{1}{2\sigma^2}(Z-H\theta)^T(Z-H\theta)) f(Z1,...,Zn)=(2∗πσ1)nexp(−2σ21(Z−Hθ)T(Z−Hθ))
- step2: 求对数
l n f ( Z 1 , . . . , Z n ) = − n l n ( 2 ∗ π σ ) − 1 2 σ 2 ( Z − H θ ) T ( Z − H θ ) lnf(Z_1,...,Z_n)=-nln(\sqrt{2*\pi}\sigma)-\frac{1}{2\sigma^2}(Z-H\theta)^T(Z-H\theta) lnf(Z1,...,Zn)=−nln(2∗πσ)−2σ21(Z−Hθ)T(Z−Hθ)
- setp3: 求导数
如果是个多元函数求克拉美罗下界,导数就用梯度代替
∇ θ l n f ( Z 1 , . . . , Z n ) = H T Z − H T H θ σ 2 ( i ) \nabla _{\theta}lnf(Z_1,...,Z_n)=\frac{H^TZ- H^TH\theta}{\sigma^2} \quad\quad\quad(i) ∇θlnf(Z1,...,Zn)=σ2HTZ−HTHθ(i)
- step4:求fisher信息量
这里我们换一种更加快速的方法来进行后续的求解。
我们知道克拉美罗下界等号是可能取到也可能取不到的,那么,不等式等号成立的条件是什么呢?
因为克拉美罗下界不等号是从柯西不等式来的,所以,我们只要知道了柯西不等式等号成立条件,我们就可以知道克拉美罗下界等号什么时候成立了
柯西不等式的成立条件是f(x)与g(x)线性相关
∫ f ( x ) g ( x ) ≤ ( ∫ f 2 ( x ) d x ) 1 2 ( ∫ g 2 ( x ) d x ) 1 2 " = " = > f ( x ) = α g ( x ) \int f(x)g(x) \leq (\int f^2(x)dx)^{\frac{1}{2}}(\int g^2(x)dx)^{\frac{1}{2}} \\"=" =>f(x) = \alpha g(x) ∫f(x)g(x)≤(∫f2(x)dx)21(∫g2(x)dx)21"="=>f(x)=αg(x)
即
( θ ^ − θ ) f ( x , θ ) = α [ ∂ ∂ θ l n f ( x , θ ) ] ∗ f ( x , θ ) (\hat \theta-\theta )\sqrt{f(x,\theta)}=\alpha[\frac{\partial}{\partial \theta }lnf(x,\theta)]* \sqrt{f(x,\theta)} (θ^−θ)f(x,θ)=α[∂θ∂lnf(x,θ)]∗f(x,θ)
左右两边的根号是可以消掉的
( θ ^ − θ ) = α [ ∂ ∂ θ l n f ( x , θ ) ] (\hat \theta-\theta )=\alpha[\frac{\partial}{\partial \theta }lnf(x,\theta)] (θ^−θ)=α[∂θ∂lnf(x,θ)]
这个常量α要与积分变量x无关,但是可以与θ有关
(
θ
^
−
θ
)
=
k
(
θ
)
[
∂
∂
θ
l
n
f
(
x
,
θ
)
]
(\hat \theta-\theta )=k(\theta)[\frac{\partial}{\partial \theta }lnf(x,\theta)]
(θ^−θ)=k(θ)[∂θ∂lnf(x,θ)]
注意里面谁的变量,θ是确切的值,没有随机性。\hat θ是对采样值的处理,因为采样值是随机变量,因此\hat θ是随机变量。 x是信号,也是随机变量。因为k必定与随机变量x无关,所以没有随机性。
我们两边同时取期望的平方。
E [ ( θ ^ − θ ) 2 ] = k ( θ ) 2 E [ ( ∂ ∂ θ l n f ( x , θ ) ) 2 ] E [ ( θ ^ − θ ) 2 ] = k ( θ ) 2 I ( θ ) V a r ( θ ^ ) = k ( θ ) 2 I ( θ ) E[(\hat \theta-\theta )^2]=k(\theta)^2E[(\frac{\partial}{\partial \theta }lnf(x,\theta))^2] \\ E[(\hat \theta-\theta )^2]=k(\theta)^2I(\theta) \\ Var(\hat \theta)=k(\theta)^2I(\theta) E[(θ^−θ)2]=k(θ)2E[(∂θ∂lnf(x,θ))2]E[(θ^−θ)2]=k(θ)2I(θ)Var(θ^)=k(θ)2I(θ)
因为克拉美罗的方差下界就是fisher信息量的逆,所以
V a r ( θ ^ ) = 1 I ( θ ) = k ( θ ) 2 I ( θ ) Var(\hat \theta) = \frac{1}{I(\theta)} = k(\theta)^2I(\theta) Var(θ^)=I(θ)1=k(θ)2I(θ)
可得
k ( θ ) = 1 I ( θ ) k(\theta) = \frac{1}{I(\theta)} k(θ)=I(θ)1
因此得到了一个小结论,克拉美罗下界等号成立条件是
[ ∂ ∂ θ l n f ( x , θ ) ] = I ( θ ) ( θ ^ − θ ) ( i i ) [\frac{\partial}{\partial \theta }lnf(x,\theta)]=I(\theta)(\hat \theta-\theta ) \quad\quad\quad(ii) [∂θ∂lnf(x,θ)]=I(θ)(θ^−θ)(ii)
把(i)代入(ii)中
∇ θ l n f ( z , θ ) = H T Z − H T H θ σ 2 = H T H σ 2 ( ( H T H ) − 1 H T Z − θ ) = I ( θ ) ( θ ^ − θ ) \nabla _{\theta}lnf(z,\theta)=\frac{H^TZ- H^TH\theta}{\sigma^2} =\frac{H^TH}{\sigma^2}((H^TH)^{-1}H^TZ-\theta)=I(\theta)(\hat \theta-\theta ) ∇θlnf(z,θ)=σ2HTZ−HTHθ=σ2HTH((HTH)−1HTZ−θ)=I(θ)(θ^−θ)
我们可以得到两个结论
- 找到了MVUE
θ ^ ( z ) = ( H T H ) − 1 H T Z \hat \theta(z)=(H^TH)^{-1}H^TZ θ^(z)=(HTH)−1HTZ
- 找到了fisher信息量
I ( θ ) = H T H σ 2 I(\theta)=\frac{H^TH}{\sigma^2} I(θ)=σ2HTH
V a r ( θ ^ ) = I − 1 ( θ ) = σ 2 ( H T H ) − 1 Var(\hat \theta)=I^{-1}(\theta) = \sigma^2 (H^TH)^{-1} Var(θ^)=I−1(θ)=σ2(HTH)−1
说明最小二乘估计就是最小方差无偏估计,是高斯条件下的最优结果
这是两种看法,一种是把数据当做最优拟合去做;一种是对噪声赋予了统计模型,然后按克拉美罗下界等号成立条件去找最小方差无偏估计MVUE。这个两者完全等效的
2.3 最优线性无偏估计进行参数求解
我们还有其他方法去看待我们的线性模型,并对其进行估计。那就是最优线性无偏估计。 Best Linear Unbias Estimator BLUE
2.3.1 标量的最优线性无偏估计 BLUE
2.3.1.1 问题阐述
我们还有第三种看待线性模型的方法
Z k = A + B k Δ t + N k Z_k = A +B k \Delta t +N_k Zk=A+BkΔt+Nk
我们先把问题简化一下,假设这条直线是过原点的,也就是A=0,那么我们就只需要估计一个参数了
Z
k
=
B
k
Δ
t
+
N
k
=
B
∗
S
k
+
N
k
Z_k = B k \Delta t +N_k = B*S_k +N_k
Zk=BkΔt+Nk=B∗Sk+Nk
Z
=
(
Z
1
,
.
.
.
,
Z
n
)
T
Z = (Z_1,...,Z_n)^T
Z=(Z1,...,Zn)T
我们来估计B,这里我们做几个假设
- 噪声的均值是0,并且其协方差矩阵为Cov(N)
- 我们的估计方法是无偏的
E ( α T Z ) = B E(\alpha^T Z) = B E(αTZ)=B
- 我们对B的估计方法是线性的,也就是有下式成立
估计方法\hat θ满足如下形式
θ ^ ( Z ) = ∑ k = 1 n α k Z k = α T Z \hat \theta(Z) = \sum _{k=1} ^n \alpha_k Z_k = \alpha ^T Z θ^(Z)=k=1∑nαkZk=αTZ
我们要求的最优估计,就是要求
m i n [ E ( B − θ ^ ) 2 ] = m i n [ E ( B − α T Z ) 2 ] min[E(B-\hat \theta)^2] = min[E(B-\alpha ^T Z)^2] min[E(B−θ^)2]=min[E(B−αTZ)2]
2.3.1.2 BLUE与MVUE区别
这里我们一定要注意一个问题,虽然我们模型的建立,已经最优估计方程的建立都非常像最小方差无偏估计,但是这里并不是最小方差无偏估计。因为首先,估计模型被限制为是线性的,MVUE是任意模型;其次,MVUE必须有已知的分布,这里并没有已知的分布。这里的这种估计方法叫做最优线性无偏估计,就是BLUE
BLUE需要满足这样的条件
- 必须是线性模型
- 可以不知道噪声具体的分布,但是要求噪声的均值为0,并且协方差可求
- 估计必须是无偏的
而MVUE必须是分布一种才能进行计算,因此BLUE条件更加宽松。
2.3.1.3 参数求解
下面来进行参数的求解
E ( α T ∗ Z ) = B α T E ( Z ) = B ( a ) E(\alpha^T*Z) = B \\ \alpha^T E(Z) = B \quad\quad(a) E(αT∗Z)=BαTE(Z)=B(a)
同时
Z = B ∗ S + N E ( Z ) = E ( B ∗ S + N ) = S ∗ B + 0 ( b ) Z = B*S +N E(Z) = E(B*S+N) = S*B +0 \quad\quad(b) Z=B∗S+NE(Z)=E(B∗S+N)=S∗B+0(b)
联立(a)(b)可得
B = α T E ( Z ) = α T S ∗ B B = \alpha^T E(Z) = \alpha^TS*B B=αTE(Z)=αTS∗B
可得一个限制条件
α
T
∗
S
=
1
(
c
)
\alpha^T*S = 1 \quad\quad(c)
αT∗S=1(c)
我们来计算优化条件
E ( B − α T Z ) 2 = E ( α T E ( Z ) − α T Z ) 2 = α T ∗ E [ ( Z − E ( Z ) ) ( Z − E ( Z ) ) T ] ∗ α = α T C o v ( Z ) ∗ α ( d ) E(B-\alpha ^T Z)^2 = E(\alpha^T E(Z) - \alpha^TZ)^2 \\ =\alpha^T*E[(Z-E(Z))(Z-E(Z))^T]* \alpha \\ = \alpha^T Cov(Z) *\alpha \quad\quad(d) E(B−αTZ)2=E(αTE(Z)−αTZ)2=αT∗E[(Z−E(Z))(Z−E(Z))T]∗α=αTCov(Z)∗α(d)
因为
E ( Z ) = B ∗ S E(Z) = B*S E(Z)=B∗S
所以有
C
o
v
(
Z
)
=
E
[
(
Z
−
E
(
Z
)
)
(
Z
−
E
(
Z
)
)
T
]
=
E
[
(
Z
−
B
S
)
(
Z
−
B
S
)
T
]
=
E
[
(
N
−
0
)
(
N
−
0
)
T
]
=
E
[
(
N
−
E
(
N
)
)
(
N
−
E
(
N
)
)
T
]
=
C
o
v
N
(
e
)
Cov(Z)=E[(Z-E(Z))(Z-E(Z))^T] = E[(Z-BS)(Z-BS)^T] \\ = E[(N-0)(N-0)^T] = E[(N-E(N))(N-E(N))^T] = Cov_N \quad\quad(e)
Cov(Z)=E[(Z−E(Z))(Z−E(Z))T]=E[(Z−BS)(Z−BS)T]=E[(N−0)(N−0)T]=E[(N−E(N))(N−E(N))T]=CovN(e)
(e)代入(d)中
E ( B − α T Z ) 2 = α T C o v ( Z ) ∗ α = α T C o v ( N ) ∗ α ( f ) E(B-\alpha ^T Z)^2 = \alpha^T Cov(Z) *\alpha = \alpha^T Cov(N) *\alpha \quad\quad(f) E(B−αTZ)2=αTCov(Z)∗α=αTCov(N)∗α(f)
假设
C o v ( N ) = C N Cov(N) = C_N Cov(N)=CN
我们要求(f)式子最小值,同时该式子有约束条件,即
m i n ( α T C N α ) , 且 α T S = 1 min(\alpha^T C_N \alpha),且 \alpha^TS = 1 min(αTCNα),且αTS=1
我们用拉格朗日乘子法来做
L ( B , λ ) = 1 2 α T C N α − λ ( α T S − 1 ) L(B,\lambda) = \frac{1}{2}\alpha ^T C_N \alpha - \lambda(\alpha^TS -1) L(B,λ)=21αTCNα−λ(αTS−1)
对α求梯度
$$
\nabla_\alpha L(\alpha,\lambda) = \frac{1}{2}(C_N+C_N^T)*\alpha- \lambda *S
$$
因为协方差矩阵是对称阵,其转置等于其本身
∇ α L ( α , λ ) = C N ∗ α − λ ∗ S α = λ ∗ C N − 1 ∗ S ( g ) \nabla_\alpha L(\alpha,\lambda) = C_N*\alpha - \lambda*S \\ \alpha = \lambda*C_N^{-1}*S \quad\quad(g) ∇αL(α,λ)=CN∗α−λ∗Sα=λ∗CN−1∗S(g)
根据约束条件
$$
\alpha^TS = 1 => S^T\alpha = 1 \quad\quad(h)
$$
联立(h)和(g)
λ ∗ S T C N − 1 ∗ S = 1 λ = 1 S T C N − 1 ∗ S \lambda*S^T C_N^{-1}*S= 1 \\ \lambda = \frac{1}{S^T C_N^{-1}*S} λ∗STCN−1∗S=1λ=STCN−1∗S1
可得α
α = C N − 1 ∗ S S T C N − 1 ∗ S \alpha= \frac{C_N^{-1}*S}{S^T C_N^{-1}*S} α=STCN−1∗SCN−1∗S
α T = ( S T C N − 1 ∗ S ) − 1 S T ∗ C N − 1 θ ^ ( Z ) = α T Z = ( S T C N − 1 ∗ S ) − 1 S T ∗ C N − 1 Z \alpha^T= (S^T C_N^{-1}*S)^{-1}S^T*C_N^{-1} \\ \hat \theta(Z) = \alpha^T Z= (S^T C_N^{-1}*S)^{-1}S^T*C_N^{-1} Z αT=(STCN−1∗S)−1ST∗CN−1θ^(Z)=αTZ=(STCN−1∗S)−1ST∗CN−1Z
2.3.1.4 噪声对估计结果的影响
(1)假设噪声的协方差矩阵是 σ^2I
如果假设噪声的协方差矩阵是 σ^2I,提供了两个条件
- 噪声是不相关的:因为如果噪声不相关,协方差矩阵就是个对角阵
- 所有噪声的功率都是一样的:说明该噪声是白噪声
则
C
N
−
1
=
1
σ
2
I
α
=
1
S
T
∗
S
S
C_N^{-1} = \frac{1}{\sigma^2}I \\ \alpha = \frac{1}{S^T*S}S
CN−1=σ21Iα=ST∗S1S
因为
Z
=
B
S
+
N
Z =BS+N
Z=BS+N
说明这里就是直接用S的值进行估计的,S大,信息量就大
(2)假设噪声的协方差矩阵是 diag(σ12,…,σn2)
如果噪声的协方差矩阵是对角阵,但是对角线上值不一样
C
N
=
d
i
a
g
(
σ
1
2
,
.
.
.
,
σ
n
2
)
=
>
C
N
−
1
=
d
i
a
g
(
1
σ
1
2
,
.
.
.
,
1
σ
n
2
)
C_N = diag(\sigma^2_1,...,\sigma^2_n) => C_N^{-1} = diag(\frac{1}{\sigma^2_1},...,\frac{1}{\sigma^2_n})
CN=diag(σ12,...,σn2)=>CN−1=diag(σ121,...,σn21)
也能提供两个信息
- 噪声是不相关的
- 不同时刻噪声的功率不同
α = C N − 1 ∗ S S T C N − 1 ∗ S = C ∗ C N − 1 ∗ S \alpha= \frac{C_N^{-1}*S}{S^T C_N^{-1}*S} =C*C_N^{-1}*S α=STCN−1∗SCN−1∗S=C∗CN−1∗S
α k ∼ S k σ k 2 \alpha_k \sim \frac{S_k}{\sigma^2 _k} αk∼σk2Sk
说明权重不但与S的大小有关,还有噪声的功率有关,噪声功率越大,说明数据越不可信,权重越低
(3)假设噪声的协方差矩阵是 I
如果CN是单位阵的话,得到的结果又是最小二乘解。
α T = ( S T C N − 1 ∗ S ) − 1 S T ∗ C N − 1 \alpha^T= (S^T C_N^{-1}*S)^{-1}S^T*C_N^{-1} αT=(STCN−1∗S)−1ST∗CN−1
α T = ( S T S ) − 1 S T \alpha^T = (S^TS)^{-1}S^T αT=(STS)−1ST
B = α T ∗ Z = ( S T S ) − 1 S T Z B = \alpha^T*Z = (S^TS)^{-1}S^TZ B=αT∗Z=(STS)−1STZ
2.3.1.5 最优线性无偏估计的小结
我们可以得到,线性估计依赖于两件事
- 一方面依赖于要估计的参数所依附的波形
- 另一方面依赖于噪声的特性
最优线性无偏估计。 Best Linear Unbias Estimulation BLUE,这个估计对分布没要求,只要这个分布均值是0,有协方差矩阵就行。而求MVUE就会求克拉美罗下界,求下界就必须有分布模型。所以BLUE的条件更加放松
2.3.2 矢量的最优线性无偏估计 BLUE
2.3.2.1 结果类比
现在把模型扩展一下,上面的模型B是个标量,现在把B扩充为矢量θ
Z = B S + N = > Z = H θ + N θ ∈ R m , H ∈ R n x m E ( N ) = 0 , C o v ( N ) = C N Z = BS+N => Z=H \theta +N \\ \theta \in R^m,H \in R^{nxm} \\ E(N)=0,Cov(N) = C_N Z=BS+N=>Z=Hθ+Nθ∈Rm,H∈RnxmE(N)=0,Cov(N)=CN
这个与前面MSUE其实非常的相似。但是不同的是,这里没有给出噪声的确切分布, 只给出了噪声均值是0,和噪声的协方差矩阵CN
我们继续寻求线性估计
θ ^ = A Z \hat \theta = AZ θ^=AZ
刚才我们让矢量α作用在采样数据上,现在我们用矩阵A作用在采样数据Z上
这个时候矩阵A应该是什么样子呢?
我们可以对比一下
α T = ( S T C N − 1 ∗ S ) − 1 S T ∗ C N − 1 \alpha^T= (S^T C_N^{-1}*S)^{-1}S^T*C_N^{-1} αT=(STCN−1∗S)−1ST∗CN−1
A就应该是
A
=
(
H
T
C
N
−
1
H
)
−
1
H
T
C
N
−
1
A = (H^T C_N^{-1} H)^{-1} H^T C_N^{-1}
A=(HTCN−1H)−1HTCN−1
类比
α
T
∗
S
=
1
\alpha^T*S = 1
αT∗S=1
通过无偏性条件应该可以得到下面的式子
A ∗ H = I A*H=I A∗H=I
2.3.2.2 限定条件计算
证明一下
E ( θ ^ ) = E ( A Z ) = A E ( Z ) = A H θ = θ = > A H = I E(\hat \theta) = E(AZ) = AE(Z) = AH\theta = \theta \\ =>AH = I E(θ^)=E(AZ)=AE(Z)=AHθ=θ=>AH=I
2.3.2.3 优化条件
我们对多参数进行估计,就必须要明确一个问题,怎么评价误差是最小的呢?
我们假设我们估计的参数\hat θ和实际参量θ定义如下
θ ^ = ( θ ^ 1 , . . . , θ ^ m ) T θ = ( θ 1 , . . . , θ m ) T θ ^ − θ = ( θ ^ 1 − θ 1 , . . . , θ ^ m − θ ^ m ) T \hat \theta =(\hat \theta _1,...,\hat \theta _m)^T \theta =(\theta _1,...,\theta _m)^T \hat \theta - \theta = (\hat \theta _1 - \theta _1,...,\hat \theta _m - \hat \theta _m)^T θ^=(θ^1,...,θ^m)Tθ=(θ1,...,θm)Tθ^−θ=(θ^1−θ1,...,θ^m−θ^m)T
这样,我们就有了每个估计参数的误差,我们怎么来衡量这组误差的大小呢?
- 求误差平方和的累加吗?其实这样不好,因为有可能里面所有的误差都很小,但是就是有一个点误差比较大,就会使得整体结果不好,这样这个模型就很吃亏
- 另每个误差都最小吗? 这样条件太苛刻了
事实上,对于矢量的误差估计来说,我们会评判其协方差矩阵的大小
C o v ( θ ^ o p t ) ≤ C o v ( θ ^ ) Cov(\hat \theta _{opt}) \leq Cov(\hat \theta) Cov(θ^opt)≤Cov(θ^)
但是我们要注意一下,左右两边是矩阵,矩阵怎么比较大小呢?
如果矩阵A大于矩阵B,就表示矩阵A-B是个正定矩阵
A ≥ B = > A − B i s P . d . A \geq B => A-B \quad is \quad P.d. A≥B=>A−BisP.d.
这个也可以用在矢量的克拉美罗下界的估计上。
因为标量的克拉美罗下界估计,是估计参数的方差必定大于fisher信息量的逆
V a r ( θ ^ ) ≥ I − 1 ( θ ) Var(\hat \theta) \geq I^{-1}(\theta) Var(θ^)≥I−1(θ)
对于矢量来说,这个估计就是,矢量的协方差矩阵不小于fisher信息量矩阵
C o v ( θ ^ ) ≥ I − 1 ( θ ) Cov(\hat \theta) \geq I^{-1}(\theta) Cov(θ^)≥I−1(θ)
2.3.2.4 证明
我们前面将标量的结果推广到了矢量上,形成了对矢量线性模型的估计,下面我们要证明,我们推广的这个结论是否正确。
也就是证明
A o p t = ( H T C N − 1 H ) − 1 H T C N − 1 [ 0 ] A_{opt} = (H^T C_N^{-1} H)^{-1} H^T C_N^{-1} \quad\quad[0] Aopt=(HTCN−1H)−1HTCN−1[0]
我们从优化目标入手,我们就是要证明,用Aopt估计参量的方差比任何A都小
∀ A ∈ R m x n E ( θ − A Z ) ( θ − A Z ) T ≥ E ( θ − A o p t Z ) ( θ − A o p t Z ) T [ 1 ] \forall A \in R^{mxn} \\ E(\theta-AZ)(\theta-AZ)^T \geq E(\theta-A_{opt}Z)(\theta-A_{opt}Z)^T \quad\quad[1] ∀A∈RmxnE(θ−AZ)(θ−AZ)T≥E(θ−AoptZ)(θ−AoptZ)T[1]
我们对这个优化目标进行变形
E ( θ − A Z ) ( θ − A Z ) T = E ( A H θ − A Z ) ( A H θ − A Z ) T = A E ( ( H θ − Z ) ( H θ − Z ) T ) A T = A C o v ( Z ) A T = A C N A T [ 2 ] E(\theta-AZ)(\theta-AZ)^T = E(AH\theta - AZ)(AH\theta -AZ)^T \\ = AE((H\theta-Z)(H\theta-Z)^T)A^T \\ = ACov(Z)A^T =AC_NA^T \quad\quad[2] E(θ−AZ)(θ−AZ)T=E(AHθ−AZ)(AHθ−AZ)T=AE((Hθ−Z)(Hθ−Z)T)AT=ACov(Z)AT=ACNAT[2]
我们用[2]的形式去表示[1],可得
即证
A C N A T ≥ A o p t C N A o p t T A C N A T − A o p t C N A o p t T ≥ 0 [ 3 ] AC_NA^T \geq A_{opt} C_N A_{opt}^T AC_NA^T - A_{opt}C_NA_{opt}^T \geq 0 \quad\quad[3] ACNAT≥AoptCNAoptTACNAT−AoptCNAoptT≥0[3]
我们继续对式子进行变形,把[0]代入[2]中
A o p t C N A o p t = ( H T C N − 1 H ) − 1 H T C N − 1 ∗ C N ∗ C N − 1 H ( H T C N − 1 H ) − 1 = ( H T C N − 1 H ) − 1 [ 4 ] A_{opt} C_N A_{opt} = (H^T C_N^{-1} H)^{-1} H^T C_N^{-1}*C_N* C_N^{-1}H (H^T C_N^{-1} H)^{-1} \\ =(H^T C_N^{-1} H)^{-1} \quad\quad[4] AoptCNAopt=(HTCN−1H)−1HTCN−1∗CN∗CN−1H(HTCN−1H)−1=(HTCN−1H)−1[4]
把[4]代入[3]中
即证明
A C N A T − ( H T C N − 1 H ) − 1 ≥ 0 [ 5 ] AC_NA^T - (H^T C_N^{-1} H)^{-1} \geq 0 \quad\quad[5] ACNAT−(HTCN−1H)−1≥0[5]
我们就是要证明这两个矩阵的差矩阵是个正定矩阵
我们引入下面式子,该式子一定是正定的
(
A
−
(
H
T
C
N
−
1
H
)
−
1
H
T
C
N
−
1
)
C
N
(
A
−
(
H
T
C
N
−
1
H
)
−
1
H
T
C
N
−
1
)
T
≥
0
[
6
]
(A-(H^T C_N^{-1} H)^{-1}H^T C_N^{-1})C_N (A-(H^T C_N^{-1} H)^{-1}H^T C_N^{-1})^T \geq 0 \quad\quad[6]
(A−(HTCN−1H)−1HTCN−1)CN(A−(HTCN−1H)−1HTCN−1)T≥0[6]
下面进行证明
首先我们证明CN一定是个正定矩阵,我们从正定矩阵的定义出发,就是其二次型恒大于0
∀ X ∈ R n X T C N X = X T E ( N − E ( N ) ) ∗ E ( N − E ( N ) ) T ∗ X = X T E ( N N T ) X = E ( X T N N T X ) = E ( X T N ) 2 ≥ 0 \forall X \in R^n \\ X^T C_N X = X^T E(N-E(N))*E(N-E(N))^T *X \\ = X^T E(N N^T) X =E(X^T N N^T X) = E(X^TN)^2 \geq 0 ∀X∈RnXTCNX=XTE(N−E(N))∗E(N−E(N))T∗X=XTE(NNT)X=E(XTNNTX)=E(XTN)2≥0
因为CN的二次型是平方的期望,恒大于0,所以CN是正定矩阵
由正定矩阵的性质,如果协方差矩阵M是正定的,任意矢量N与该协方差矩阵的二次型都是正定的
M
∼
P
.
d
.
N
T
∗
M
∗
N
∼
P
.
d
.
M \sim P.d. \\ N^T*M*N \sim P.d.
M∼P.d.NT∗M∗N∼P.d.
CN是正定协方差矩阵,故
∀ B ∈ R n B ∗ C N ∗ B T ≥ 0 \forall B \in R^n \\ B*C_N*B^T \quad \geq 0 ∀B∈RnB∗CN∗BT≥0
令 B = ( A − ( H T C N − 1 H ) − 1 H T 令B=(A-(H^T C_N^{-1} H)^{-1}H^T 令B=(A−(HTCN−1H)−1HT
所以式[6]一定是正定的
( A − ( H T C N − 1 H ) − 1 H T C N − 1 ) C N ( A − ( H T C N − 1 H ) − 1 H T C N − 1 ) T ≥ 0 (A-(H^T C_N^{-1} H)^{-1}H^T C_N^{-1})C_N (A-(H^T C_N^{-1} H)^{-1}H^T C_N^{-1})^T \geq 0 (A−(HTCN−1H)−1HTCN−1)CN(A−(HTCN−1H)−1HTCN−1)T≥0
对该式子进行变形
= A ∗ C N ∗ A T − A ∗ C N ∗ C N − 1 H ( H T C N − 1 H ) − 1 − ( H T C N − 1 H ) − 1 H T C N − 1 ∗ C N ∗ A T + ( H T C N − 1 H ) − 1 H T C N − 1 ∗ C N ∗ C N − 1 H ( H T C N − 1 H ) − 1 = A ∗ C N ∗ A T − A H ( H T C N − 1 H ) − 1 − ( H T C N − 1 H ) − 1 H T ∗ A T + ( H T C N − 1 H ) − 1 [ 7 ] = A *C_N *A^T-A *C_N* C_N^{-1} H (H^T C_N^{-1} H)^{-1} \\- (H^T C_N^{-1}H)^{-1}H^TC_N^{-1}* C_N*A^T \\+ (H^T C_N^{-1} H)^{-1}H^T C_N^{-1} * C_N * C_N^{-1} H (H^T C_N^{-1}H)^{-1} \\ = A *C_N *A^T - A H (H^T C_N^{-1} H)^{-1} \\- (H^T C_N^{-1} H)^{-1}H^T*A^T + (H^T C_N^{-1} H)^{-1} \quad\quad[7] =A∗CN∗AT−A∗CN∗CN−1H(HTCN−1H)−1−(HTCN−1H)−1HTCN−1∗CN∗AT+(HTCN−1H)−1HTCN−1∗CN∗CN−1H(HTCN−1H)−1=A∗CN∗AT−AH(HTCN−1H)−1−(HTCN−1H)−1HT∗AT+(HTCN−1H)−1[7]
根据限制条件
A H = I [ 8 ] AH = I \quad\quad[8] AH=I[8]
[8]代入[7]中
A
∗
C
N
∗
A
T
−
A
H
(
H
T
C
N
−
1
H
)
−
1
−
(
H
T
C
N
−
1
H
)
−
1
H
T
∗
A
T
+
(
H
T
C
N
−
1
H
)
−
1
=
A
∗
C
N
∗
A
T
−
(
H
T
C
N
−
1
H
)
−
1
≥
0
A *C_N *A^T - A H (H^T C_N^{-1} H)^{-1} \\- (H^T C_N^{-1} H)^{-1}H^T*A^T + (H^T C_N^{-1} H)^{-1}\\= A *C_N *A^T - (H^T C_N^{-1} H)^{-1} \geq 0
A∗CN∗AT−AH(HTCN−1H)−1−(HTCN−1H)−1HT∗AT+(HTCN−1H)−1=A∗CN∗AT−(HTCN−1H)−1≥0
所以我们要证明的[5]式成立,也就是我们类比的结果就是最优线性无偏估计
所以,多参数(矢量)的最优线性无偏估计的结果是
θ ^ ( Z ) = A o p t Z = ( H T C N − 1 H ) − 1 H T C N − 1 Z \hat \theta(Z) =A_{opt}Z = (H^T C_N^{-1} H)^{-1} H^T C_N^{-1}Z θ^(Z)=AoptZ=(HTCN−1H)−1HTCN−1Z
如果CN是单位阵
A o p t Z = ( H T H ) − 1 H T Z A_{opt}Z = (H^T H)^{-1} H^T Z AoptZ=(HTH)−1HTZ
2.3.3 随机变量的最优线性无偏估计 BLUE
刚才我们研究的对象是确定的变量,我们研究的问题是,我们有一组随自变量变化的点,我们如何用这些点去拟合一条直线,从表示因变量随着自变量的变化情况。
现在我们的研究对象变成了随机的变量,我们研究的问题是,如果有一个或者一组随机变量,我们通过什么样的线性组合,能够让这一个或者一组随机变量去表示另外一个随机变量呢?
2.3.3.1 一个随机变量对另一个随机变量做线性估计
我们首先研究,如何用一个随机变量去描述另外一个随机变量,假设有随机变量Y和Z,我们对Z进行某些线性变化,让这个变量能够逼近Y
Y , Z Z = > α Z − > Y Y,Z \\ Z =>\alpha Z ->Y Y,ZZ=>αZ−>Y
优化条件
m i n E ( Y − α Z ) 2 min E(Y- \alpha Z)^2 minE(Y−αZ)2
我们对α求导,令导数为0
g ( α ) = E ( Y − α Z ) 2 g(\alpha) =E(Y- \alpha Z)^2 g(α)=E(Y−αZ)2
∇ α g ( α ) = E [ − 2 Z ( Y − α Z ) ] = 0 \nabla_\alpha g(\alpha) = E[-2Z (Y-\alpha Z)] = 0 ∇αg(α)=E[−2Z(Y−αZ)]=0
整理一下
E ( Z Y ) = α E ( Z 2 ) E(ZY) = \alpha E(Z^2) E(ZY)=αE(Z2)
α
=
E
(
Z
Y
)
E
(
Z
2
)
\alpha = \frac{E(ZY)}{E(Z^2)}
α=E(Z2)E(ZY)
得到的结果是ZY互相关除以Z的自相关
2.3.3.2 一组随机变量对另一个随机变量做线性估计
我们继续沿着这个思路,研究如何用一组随机变量去描述一个随机变量
假设我们有一组随机变量Zk,我们希望用Zk来描述随机变量Y
Y , Z 1 , Z 2 , . . . , Z n = > α 1 Z 1 + . . . + α n Z n − > Y Y,Z_1,Z_2,...,Z_n => \alpha_1 Z_1 +...+ \alpha_n Z_n -> Y Y,Z1,Z2,...,Zn=>α1Z1+...+αnZn−>Y
我们需要做的就是
m i n E ( Y − α T Z ) 2 minE(Y - \alpha^T Z)^2 minE(Y−αTZ)2
α = ( α 1 , . . . α n ) \alpha = (\alpha_1,...\alpha_n) α=(α1,...αn)
此时对g(α)求梯度
∇ α g ( α ) = ∇ α E ( Y − α T Z ) 2 = ∇ α E ( Y − α T Z ) ( Y − α T Z ) T = ∇ α ( E ( Y ∗ Y T ) − α T E ( Z Y ) − E ( Y Z T ) α + α T E ( Z Z T ) α ) = − E ( Z Y ) − E ( Z Y T ) + 2 E ( Z Z T ) ∗ α = 0 \nabla_\alpha g(\alpha) = \nabla_\alpha E(Y- \alpha^T Z)^2 \\ = \nabla_\alpha E(Y- \alpha^T Z)(Y- \alpha^T Z)^T \\ = \nabla_\alpha (E(Y*Y^T) - \alpha^T E(ZY) - E(Y Z^T)\alpha + \alpha^T E(Z Z^T) \alpha) \\ = -E(ZY) - E(ZY^T) + 2E(ZZ^T)*\alpha = 0 ∇αg(α)=∇αE(Y−αTZ)2=∇αE(Y−αTZ)(Y−αTZ)T=∇α(E(Y∗YT)−αTE(ZY)−E(YZT)α+αTE(ZZT)α)=−E(ZY)−E(ZYT)+2E(ZZT)∗α=0
因此
E ( Z Z T ) ∗ α − E ( Z Y T ) = 0 E(ZZ^T)*\alpha - E(ZY^T) = 0 E(ZZT)∗α−E(ZYT)=0
E ( Z Y T ) = E ( Z Y ) E(ZY^T) = E(ZY) E(ZYT)=E(ZY)
α = ( E ( Z Z T ) ) − 1 E ( Z Y ) \alpha = (E(ZZ^T))^{-1}E(ZY) α=(E(ZZT))−1E(ZY)
与刚才标量的结果是类似的
2.3.4 随机过程的最优线性无偏估计 BLUE
现在我们要估计的不仅仅是随机变量了,而且是一个随着时间变化的随机变量,我们希望能够用一个随机过程通过线性时不变系统进行处理,从而逼近另外一个随机过程
我们假定有这样的连续模型
Y ( t ) , Z ( t ) Y(t),Z(t) Y(t),Z(t)
也就是让Z(t)通过一个线性系统h,从而实现对Y(t)的估计量 \hat Y(t)
Z ( t ) − > h − > Y ^ ( t ) Z(t)->\boxed{h}-> \hat Y(t) Z(t)−>h−>Y^(t)
优化条件为
m
i
n
E
(
Y
(
t
)
−
Y
^
(
t
)
)
[
a
]
min E(Y(t) - \hat Y(t)) \quad\quad[a]
minE(Y(t)−Y^(t))[a]
线性时不变系统的输出,是输入与该系统的冲激响应之间的卷积
Y ^ ( t ) = ∫ − ∞ + ∞ h ( t − τ ) Z ( τ ) d τ [ b ] \hat Y(t) = \int_{-\infty}^{+\infty} h(t-\tau)Z(\tau)d\tau \quad\quad[b] Y^(t)=∫−∞+∞h(t−τ)Z(τ)dτ[b]
把[b]代入[a]中可得
E [ ( Y ( t ) − ∫ − ∞ + ∞ h ( t − τ ) Z ( τ ) d τ ) 2 ] [ c ] E[(Y(t)-\int_{-\infty}^{+\infty} h(t-\tau)Z(\tau)d\tau)^2] \quad\quad[c] E[(Y(t)−∫−∞+∞h(t−τ)Z(τ)dτ)2][c]
因为我们是对h进行优化,我们非常希望能够对h求导,但是h在积分里面,如果能够把h变成乘积,我们就能顺利求导数了。把卷积变成乘积的方法就是进行傅里叶变换。但是我们需要考虑,进行傅里叶变换是否会影响期望
根据帕塞瓦尔定量,时域与频域能量是一样的,所以我们可以进傅里叶变换,把时域卷积变成频域乘法,然后就能求导数了。
我们下面的推导是不严谨的,只是进行思路上的说明,可能细节数据是不对的
E [ ( Y ( t ) − ∫ − ∞ + ∞ h ( t − τ ) Z ( τ ) d τ ) 2 ] = 1 2 π E [ ( Y ( ω ) − H ( ω ) Z ( ω ) ) 2 ] E[(Y(t)-\int_{-\infty}^{+\infty} h(t-\tau)Z(\tau)d\tau)^2] = \frac{1}{2 \pi}E[(Y(\omega)-H(\omega)Z(\omega))^2] E[(Y(t)−∫−∞+∞h(t−τ)Z(τ)dτ)2]=2π1E[(Y(ω)−H(ω)Z(ω))2]
然后我们对随机变量线性估计的结果进行推广,得到了随机过程线性估计的结果,这个结果可能也是不严谨的,仅仅是代表推导思路。
= > H ( ω ) = [ E ( Z 2 ( ω ) ) ] − 1 E ( Z ( ω ) Y ( ω ) ) => H(\omega) = [E(Z^2(\omega))]^{-1} E(Z(\omega)Y(\omega)) =>H(ω)=[E(Z2(ω))]−1E(Z(ω)Y(ω))
我们得到的这个最优的线性系统包括前后两部分,前一部分等效于Z的功率谱密度,后一部分是Z与Y的互谱密度。
3. 总结
我们来进行本节的总结
- (1) 线性拟合
我们一开始就有这样的模型
Z ≈ H θ Z \approx H \theta Z≈Hθ
最开始的模型没有引入噪声的概念,认为二者是近似相等的。
于是我们最终得到了这样的估计模型
θ ^ = ( H T H ) − 1 ( H T Z ) \hat \theta = (H^TH)^{-1}(H^TZ) θ^=(HTH)−1(HTZ)
- (2) 最小方差无偏估计 MVUE
后来人们有了噪声的概念,建立了包含噪声的模型
Z = H θ + N Z = H \theta +N Z=Hθ+N
N ∼ N ( 0 , σ 2 I ) N \sim N(0,\sigma^2 I) N∼N(0,σ2I)
通过克拉美罗下界,我们可以得到最小方差无偏估计的结果。这个估计是在所有估计中最好的,并没有限制估计模型是线性的,只要这个噪声是高斯噪声
θ ^ ( z ) M V U E = ( H T H ) − 1 H T Z \hat \theta(z)_{MVUE}=(H^TH)^{-1}H^TZ θ^(z)MVUE=(HTH)−1HTZ
- (3) 对确定变量的最优线性无偏估计 BLUE
而后,我们开始不要求噪声的分布是已知的了,但是我们对噪声的一阶矩和二阶矩进行了限定,同时对估计模型也做了限定,要求它是线性模型
Z = H θ + N Z = H \theta +N Z=Hθ+N
E ( N ) = 0 C o v ( N ) = C N E(N) = 0 \\ Cov(N) = C_N E(N)=0Cov(N)=CN
我们能够得到最好的估计就是
θ ^ ( z ) B L U E = ( H T C N − 1 H ) − 1 H T C N − 1 Z \hat \theta(z)_{BLUE}=(H^T C_N^{-1} H)^{-1} H^T C_N^{-1} Z θ^(z)BLUE=(HTCN−1H)−1HTCN−1Z
- (4) 对随机变量的最优线性无偏估计
然后我们又引入了对随机变量的估计,我们的模型变成了
Y , ( Z 1 , . . . , Z n ) = > α T Z = Y Y,(Z_1,...,Z_n) => \alpha^T Z = Y Y,(Z1,...,Zn)=>αTZ=Y
最优的结果就是
Y ^ = ( E ( Z Z T ) ) − 1 E ( Y Z T ) Z \hat Y=(E(ZZ^T))^{-1}E(YZ^T)Z Y^=(E(ZZT))−1E(YZT)Z
- (5) 对随机过程的最优线性无偏估计
对随机变量进一步引申,就变成了对随机过程的估计。通过一个线性变换,对Y进行估计。
我们的模型变成了
Y ( t ) H ( Z ( t ) ) − > Y ( t ) Y(t) \\ H(Z(t)) -> Y(t) Y(t)H(Z(t))−>Y(t)
最优估计为
Y ^ ( t ) = ( h o p t ⊗ Z ) ( t ) \hat Y(t) = (h_{opt} \otimes Z)(t) Y^(t)=(hopt⊗Z)(t)
h频域上的传递函数就是Z的功率谱密度乘以YZ的互谱密度
H ( ω ) = S Z − 1 ( ω ) ∗ S Z Y ( ω ) H(\omega) = S_Z^{-1}(\omega) *S_{ZY}(\omega) H(ω)=SZ−1(ω)∗SZY(ω)
如果用傅里叶逆变换进行表示就是
Y ^ ( t ) = F − 1 ( S Z − 1 ( ω ) ∗ S Z Y ( ω ) ) ⊗ Z ( t ) \hat Y(t) = F^{-1}(S_Z^{-1}(\omega) *S_{ZY}(\omega)) \otimes Z(t) Y^(t)=F−1(SZ−1(ω)∗SZY(ω))⊗Z(t)