【现代信号处理】 03 - 线性估计 BLUE

Ciaran-byte

已于 2022-06-04 10:57:17 修改

阅读量1k

点赞数 2

分类专栏：数学基础文章标签：线性代数概率论机器学习

于 2021-08-26 16:32:58 首次发布

本文链接：https://blog.csdn.net/qq_41741344/article/details/119934340

版权

数学基础专栏收录该内容

46 篇文章

订阅专栏

本文探讨了线性估计BLUE方法，涉及从线性拟合参数估计到最小方差无偏估计再到最优线性无偏估计的过程，包括标量和矢量形式，以及随机变量和随机过程的估计。重点讲解了BLUE条件下的参数求解、噪声影响及最优线性估计的求解步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

线性估计 BLUE

文章目录

线性估计 BLUE

1. 问题引入

在之前的章节中，我们引入了克拉美罗界CRLB，用来评估使用最小方差无偏估计MVUE能够达到什么程度。在这之后，我们希望能够找到一些简单好用的方法，能够对数据进行估计。其中历史最悠久，使用最广泛的，就是线性估计了。

我们提出这样一个问题，下面这条曲线，是一组随时间变化的数据形成的，我们如何估计这条曲线的表达式呢?

在这里插入图片描述

我们观测的对象，其实由两部分组成，一部分是由其内部机制引起的数据变化，另一部分是由于噪声引起的数据变化。我们希望能够得到这组数据背后的变化规律，因此我们要对他进行估计。通过直觉，我们感觉这是一条直线，因此我们建立如下模型，进行参数估计

按理来说，直线的模型是,其中A和B是需要估计的参数

$Z (t) = A + B t$

但是实际上，我们的数据是包含噪声的，因此，我们在直线的基础上叠加一个随机噪声

$Z (t) = A + B t + N (t)$

我们对Z进行采样。其中\Delta t是采样间隔，得到以下的数据

$Z_1，...,Z_n \quad \quad Z_k = A + B*k*\Delta t +N_k ,\quad N_k = N(k\Delta t)$

这样我们就有了一个模型，这是一个典型的线性模型。我们可以有很多种求解方法。下面，我们将采用不同思路进行线性模型的估计

2. 问题求解

2.1 线性拟合的方法进行参数求解

2.1.1 目标函数的确立

首先我们用线性拟合的方式进行求解，先把已知条件抄下来

$Z_1，...,Z_n \quad \quad Z_k = A + B*k*\Delta t +N_k ,\quad N_k = N(k\Delta t)$

我们在每个点计算模型与采样之间的误差,然后把误差加在一起。这是一个与A和B都有关的函数
$\sum _{k=1}^n(Z_k -A -B*k*\Delta t)^2 \sim g(A,B)$

在这里插入图片描述

我们进行最优估计的原则就是，我们要让数据点与模型垂直距离的平方和最小

$= > m i n [g (A, B)]$

直接从平方和开始计算非常麻烦，我们用更加流行的方法，我们这个模型变成向量的形式进行表示

采样数据Z的表示

$Z = (Z_1,...Z_n)^T$

估计量θ的表示

$\theta = (A,B)^T$

矩阵H的表示

假设H是一个nx2矩阵

$\in R^{nx2} \\ H=\begin{pmatrix} 1 & \Delta t \\ ... & ... \\ 1 & n \Delta t \end{pmatrix}$

噪声N的表示

$N = (N_1,...,N_n)^T$

我们对模型进行向量化表示

$\theta +N \quad\quad\quad(1)$
目标函数也进行向量化表示

$g(\theta) = (Z-H\theta)^T (Z-H\theta) \quad\quad\quad(2)$
$g(\theta) = Z^T*Z - \theta^TH^TZ - Z^T H\theta+\theta^TH^TH\theta \quad\quad\quad(3)$

2.1.2 梯度的性质

因为我们需要用到矢量求梯度的性质，这里引入一些性质

矢量求梯度的结果。假设h是θ的函数，h是个矩阵或者矢量都行，则对其求梯度，结果就是其雅克比行列式

$\nabla_{\theta}(h(\theta)) = \begin{pmatrix} \frac{\partial h_1}{\partial \theta _1} & ...&\frac{\partial h_1}{\partial \theta _n} \\ ... & ... &... \\ \frac{\partial h_m}{\partial \theta _1} & ... & \frac{\partial h_m}{\partial \theta _n} \end{pmatrix}$
因此有下式子成立

$\nabla_{\theta}(\theta^TA) = A$

$\nabla_{\theta}(A \theta) = A^T$

$\nabla_{\theta}(\theta^T * A*\theta) = (A+A^T)\theta$

2.1.3 目标函数的求解

在了解了矢量的梯度的性质以后，我们继续求解目标函数

我们如果想要得到目标函数的最小值，就要另目标函数导数为0。这里实际上就是求的梯度

$(\frac{\partial g}{\partial A } , \frac{\partial g}{\partial B } )^T = \nabla _{\theta}$
我们分析一下这个式子
$g(\theta) = Z^T*Z - \theta^TH^TZ - Z^T H\theta+\theta^TH^TH\theta \quad\quad\quad(3)$

这个式子有四项，第一项与θ无关，求梯度为0，后面的三项其实都是标量，对标量求梯度，得到的是矢量。并且后面的三项利用2.1.2中给的公式可以求，因此,求梯度可得
$\nabla _{\theta}g(\theta) = - \nabla_{\theta}(\theta^TH^TZ)- \nabla_{\theta}(Z^T H\theta) \\+ \nabla_{\theta}(\theta^TH^TH\theta) -2(H^TZ) + (2H^TH)\theta$

根据梯度为0可得
$\nabla _{\theta}g(\theta) = -2(H^TZ) + 2(H^TH)\theta =0$

$(H^TH)\theta = H^TZ \\ \theta = (H^TH)^{-1}(H^TZ)$

这个结果最早是由Gauss做出的，叫做最小二乘

最小二乘的前提H^TH必须是可逆的，如果H的列矢量只差常数倍，则H^TH就不可

2.2 最小方差无偏估计进行参数求解

在使用线性拟合进行求解的时候，我们完全没有用到噪声的信息，现在我们开始看看噪声会对估计产生什么影响。

使用最小方差无偏估计的时候，需要计算克拉美罗下界，第一步就要求解模型的联合分布，因此，计算克拉美罗下界的是有前提的，就是我们要知道模型的准确分布是什么样子的

在这里，我们假定噪声服从高斯分布

$Z_1,...,Z_n -> Z_k = A + B*k*\Delta t +N_k \\ N_k \sim N(0,\sigma^2 I)$

这里我们依旧使用向量模型

$\theta +N$

求一下克拉美罗下界

step1:先写分布

$f(Z_1,...,Z_n) =(\frac{1}{\sqrt{2*\pi}\sigma})^nexp(-\frac{1}{2\sigma^2}(Z-H\theta)^T(Z-H\theta))$

step2: 求对数

$lnf(Z_1,...,Z_n)=-nln(\sqrt{2*\pi}\sigma)-\frac{1}{2\sigma^2}(Z-H\theta)^T(Z-H\theta)$

setp3: 求导数

如果是个多元函数求克拉美罗下界，导数就用梯度代替

$\nabla _{\theta}lnf(Z_1,...,Z_n)=\frac{H^TZ- H^TH\theta}{\sigma^2} \quad\quad\quad(i)$

step4:求fisher信息量

这里我们换一种更加快速的方法来进行后续的求解。

我们知道克拉美罗下界等号是可能取到也可能取不到的，那么，不等式等号成立的条件是什么呢?

因为克拉美罗下界不等号是从柯西不等式来的，所以，我们只要知道了柯西不等式等号成立条件，我们就可以知道克拉美罗下界等号什么时候成立了

柯西不等式的成立条件是f(x)与g(x)线性相关

$\int f(x)g(x) \leq (\int f^2(x)dx)^{\frac{1}{2}}(\int g^2(x)dx)^{\frac{1}{2}} \\"=" =>f(x) = \alpha g(x)$

即

$(\hat \theta-\theta )\sqrt{f(x,\theta)}=\alpha[\frac{\partial}{\partial \theta }lnf(x,\theta)]* \sqrt{f(x,\theta)}$

左右两边的根号是可以消掉的

$(\hat \theta-\theta )=\alpha[\frac{\partial}{\partial \theta }lnf(x,\theta)]$

这个常量α要与积分变量x无关，但是可以与θ有关
$(\hat \theta-\theta )=k(\theta)[\frac{\partial}{\partial \theta }lnf(x,\theta)]$

注意里面谁的变量，θ是确切的值，没有随机性。\hat θ是对采样值的处理，因为采样值是随机变量，因此\hat θ是随机变量。 x是信号，也是随机变量。因为k必定与随机变量x无关，所以没有随机性。

我们两边同时取期望的平方。

$E[(\hat \theta-\theta )^2]=k(\theta)^2E[(\frac{\partial}{\partial \theta }lnf(x,\theta))^2] \\ E[(\hat \theta-\theta )^2]=k(\theta)^2I(\theta) \\ Var(\hat \theta)=k(\theta)^2I(\theta)$

因为克拉美罗的方差下界就是fisher信息量的逆，所以

$Var(\hat \theta) = \frac{1}{I(\theta)} = k(\theta)^2I(\theta)$

可得

$k(\theta) = \frac{1}{I(\theta)}$

因此得到了一个小结论，克拉美罗下界等号成立条件是

$[\frac{\partial}{\partial \theta }lnf(x,\theta)]=I(\theta)(\hat \theta-\theta ) \quad\quad\quad(ii)$

把(i)代入(ii)中

$\nabla _{\theta}lnf(z,\theta)=\frac{H^TZ- H^TH\theta}{\sigma^2} =\frac{H^TH}{\sigma^2}((H^TH)^{-1}H^TZ-\theta)=I(\theta)(\hat \theta-\theta )$

我们可以得到两个结论

找到了MVUE

$\hat \theta(z)=(H^TH)^{-1}H^TZ$

找到了fisher信息量

$I(\theta)=\frac{H^TH}{\sigma^2}$

$Var(\hat \theta)=I^{-1}(\theta) = \sigma^2 (H^TH)^{-1}$

说明最小二乘估计就是最小方差无偏估计，是高斯条件下的最优结果

这是两种看法，一种是把数据当做最优拟合去做;一种是对噪声赋予了统计模型，然后按克拉美罗下界等号成立条件去找最小方差无偏估计MVUE。这个两者完全等效的

2.3 最优线性无偏估计进行参数求解

我们还有其他方法去看待我们的线性模型，并对其进行估计。那就是最优线性无偏估计。 Best Linear Unbias Estimator BLUE

2.3.1 标量的最优线性无偏估计 BLUE

2.3.1.1 问题阐述

我们还有第三种看待线性模型的方法

$Z_k = A +B k \Delta t +N_k$

我们先把问题简化一下，假设这条直线是过原点的，也就是A=0，那么我们就只需要估计一个参数了

$Z_k = B k \Delta t +N_k = B*S_k +N_k$
$Z = (Z_1,...,Z_n)^T$

我们来估计B，这里我们做几个假设

噪声的均值是0，并且其协方差矩阵为Cov(N)
我们的估计方法是无偏的

$E(\alpha^T Z) = B$

我们对B的估计方法是线性的，也就是有下式成立

估计方法\hat θ满足如下形式

$\hat \theta(Z) = \sum _{k=1} ^n \alpha_k Z_k = \alpha ^T Z$

我们要求的最优估计，就是要求

$min[E(B-\hat \theta)^2] = min[E(B-\alpha ^T Z)^2]$

2.3.1.2 BLUE与MVUE区别

这里我们一定要注意一个问题，虽然我们模型的建立，已经最优估计方程的建立都非常像最小方差无偏估计，但是这里并不是最小方差无偏估计。因为首先，估计模型被限制为是线性的，MVUE是任意模型；其次，MVUE必须有已知的分布，这里并没有已知的分布。这里的这种估计方法叫做最优线性无偏估计，就是BLUE

BLUE需要满足这样的条件

必须是线性模型
可以不知道噪声具体的分布，但是要求噪声的均值为0，并且协方差可求
估计必须是无偏的

而MVUE必须是分布一种才能进行计算，因此BLUE条件更加宽松。

2.3.1.3 参数求解

下面来进行参数的求解

$E(\alpha^T*Z) = B \\ \alpha^T E(Z) = B \quad\quad(a)$

同时

$\quad\quad(b)$

联立(a)(b)可得

$\alpha^T E(Z) = \alpha^TS*B$

可得一个限制条件
$\alpha^T*S = 1 \quad\quad(c)$

我们来计算优化条件

$E(B-\alpha ^T Z)^2 = E(\alpha^T E(Z) - \alpha^TZ)^2 \\ =\alpha^T*E[(Z-E(Z))(Z-E(Z))^T]* \alpha \\ = \alpha^T Cov(Z) *\alpha \quad\quad(d)$

因为

$E (Z) = B * S$

所以有

$Cov(Z)=E[(Z-E(Z))(Z-E(Z))^T] = E[(Z-BS)(Z-BS)^T] \\ = E[(N-0)(N-0)^T] = E[(N-E(N))(N-E(N))^T] = Cov_N \quad\quad(e)$
(e)代入(d)中

$E(B-\alpha ^T Z)^2 = \alpha^T Cov(Z) *\alpha = \alpha^T Cov(N) *\alpha \quad\quad(f)$

假设

$Cov(N) = C_N$

我们要求(f)式子最小值，同时该式子有约束条件，即

$min(\alpha^T C_N \alpha)，且 \alpha^TS = 1$

我们用拉格朗日乘子法来做

$L(B,\lambda) = \frac{1}{2}\alpha ^T C_N \alpha - \lambda(\alpha^TS -1)$

对α求梯度

$$
\nabla_\alpha L(\alpha,\lambda) = \frac{1}{2}(C_N+C_N^T)*\alpha- \lambda *S

因为协方差矩阵是对称阵，其转置等于其本身

$\nabla_\alpha L(\alpha,\lambda) = C_N*\alpha - \lambda*S \\ \alpha = \lambda*C_N^{-1}*S \quad\quad(g)$

根据约束条件

$$
\alpha^TS = 1 => S^T\alpha = 1 \quad\quad(h)

联立(h)和(g)

$\lambda*S^T C_N^{-1}*S= 1 \\ \lambda = \frac{1}{S^T C_N^{-1}*S}$

可得α

$\alpha= \frac{C_N^{-1}*S}{S^T C_N^{-1}*S}$

$\alpha^T= (S^T C_N^{-1}*S)^{-1}S^T*C_N^{-1} \\ \hat \theta(Z) = \alpha^T Z= (S^T C_N^{-1}*S)^{-1}S^T*C_N^{-1} Z$

2.3.1.4 噪声对估计结果的影响

(1)假设噪声的协方差矩阵是 σ^2I

如果假设噪声的协方差矩阵是 σ^2I，提供了两个条件

噪声是不相关的：因为如果噪声不相关，协方差矩阵就是个对角阵
所有噪声的功率都是一样的：说明该噪声是白噪声

则

$C_N^{-1} = \frac{1}{\sigma^2}I \\ \alpha = \frac{1}{S^T*S}S$
因为
$Z = B S + N$
说明这里就是直接用S的值进行估计的，S大，信息量就大

(2)假设噪声的协方差矩阵是 diag(σ₁²,…,σ_n²)

如果噪声的协方差矩阵是对角阵，但是对角线上值不一样

$C_N = diag(\sigma^2_1,...,\sigma^2_n) => C_N^{-1} = diag(\frac{1}{\sigma^2_1},...,\frac{1}{\sigma^2_n})$
也能提供两个信息

噪声是不相关的
不同时刻噪声的功率不同

$\alpha= \frac{C_N^{-1}*S}{S^T C_N^{-1}*S} =C*C_N^{-1}*S$

$\alpha_k \sim \frac{S_k}{\sigma^2 _k}$

说明权重不但与S的大小有关，还有噪声的功率有关，噪声功率越大，说明数据越不可信，权重越低

(3)假设噪声的协方差矩阵是 I

如果C_N是单位阵的话，得到的结果又是最小二乘解。

$\alpha^T= (S^T C_N^{-1}*S)^{-1}S^T*C_N^{-1}$

$\alpha^T = (S^TS)^{-1}S^T$

$\alpha^T*Z = (S^TS)^{-1}S^TZ$

2.3.1.5 最优线性无偏估计的小结

我们可以得到，线性估计依赖于两件事

一方面依赖于要估计的参数所依附的波形
另一方面依赖于噪声的特性

最优线性无偏估计。 Best Linear Unbias Estimulation BLUE，这个估计对分布没要求，只要这个分布均值是0，有协方差矩阵就行。而求MVUE就会求克拉美罗下界，求下界就必须有分布模型。所以BLUE的条件更加放松

2.3.2 矢量的最优线性无偏估计 BLUE

2.3.2.1 结果类比

现在把模型扩展一下，上面的模型B是个标量，现在把B扩充为矢量θ

$\theta +N \\ \theta \in R^m,H \in R^{nxm} \\ E(N)=0,Cov(N) = C_N$

这个与前面MSUE其实非常的相似。但是不同的是，这里没有给出噪声的确切分布，只给出了噪声均值是0，和噪声的协方差矩阵C_N

我们继续寻求线性估计

$\hat \theta = AZ$

刚才我们让矢量α作用在采样数据上，现在我们用矩阵A作用在采样数据Z上

这个时候矩阵A应该是什么样子呢?

我们可以对比一下

$\alpha^T= (S^T C_N^{-1}*S)^{-1}S^T*C_N^{-1}$

A就应该是

$A = (H^T C_N^{-1} H)^{-1} H^T C_N^{-1}$
类比
$\alpha^T*S = 1$

通过无偏性条件应该可以得到下面的式子

$A * H = I$

2.3.2.2 限定条件计算

证明一下

$E(\hat \theta) = E(AZ) = AE(Z) = AH\theta = \theta \\ =>AH = I$

2.3.2.3 优化条件

我们对多参数进行估计，就必须要明确一个问题，怎么评价误差是最小的呢？

我们假设我们估计的参数\hat θ和实际参量θ定义如下

$\hat \theta =(\hat \theta _1,...,\hat \theta _m)^T \theta =(\theta _1,...,\theta _m)^T \hat \theta - \theta = (\hat \theta _1 - \theta _1,...,\hat \theta _m - \hat \theta _m)^T$

这样，我们就有了每个估计参数的误差，我们怎么来衡量这组误差的大小呢?

求误差平方和的累加吗?其实这样不好，因为有可能里面所有的误差都很小，但是就是有一个点误差比较大，就会使得整体结果不好，这样这个模型就很吃亏
另每个误差都最小吗? 这样条件太苛刻了

事实上，对于矢量的误差估计来说，我们会评判其协方差矩阵的大小

$Cov(\hat \theta _{opt}) \leq Cov(\hat \theta)$

但是我们要注意一下，左右两边是矩阵，矩阵怎么比较大小呢?

如果矩阵A大于矩阵B，就表示矩阵A-B是个正定矩阵

$\geq B => A-B \quad is \quad P.d.$

这个也可以用在矢量的克拉美罗下界的估计上。

因为标量的克拉美罗下界估计，是估计参数的方差必定大于fisher信息量的逆

$Var(\hat \theta) \geq I^{-1}(\theta)$

对于矢量来说，这个估计就是，矢量的协方差矩阵不小于fisher信息量矩阵

$Cov(\hat \theta) \geq I^{-1}(\theta)$

2.3.2.4 证明

我们前面将标量的结果推广到了矢量上，形成了对矢量线性模型的估计，下面我们要证明，我们推广的这个结论是否正确。

也就是证明

$A_{opt} = (H^T C_N^{-1} H)^{-1} H^T C_N^{-1} \quad\quad[0]$

我们从优化目标入手，我们就是要证明，用A_opt估计参量的方差比任何A都小

$\forall A \in R^{mxn} \\ E(\theta-AZ)(\theta-AZ)^T \geq E(\theta-A_{opt}Z)(\theta-A_{opt}Z)^T \quad\quad[1]$

我们对这个优化目标进行变形

$E(\theta-AZ)(\theta-AZ)^T = E(AH\theta - AZ)(AH\theta -AZ)^T \\ = AE((H\theta-Z)(H\theta-Z)^T)A^T \\ = ACov(Z)A^T =AC_NA^T \quad\quad[2]$

我们用[2]的形式去表示[1]，可得

即证

$AC_NA^T \geq A_{opt} C_N A_{opt}^T AC_NA^T - A_{opt}C_NA_{opt}^T \geq 0 \quad\quad[3]$

我们继续对式子进行变形，把[0]代入[2]中

$A_{opt} C_N A_{opt} = (H^T C_N^{-1} H)^{-1} H^T C_N^{-1}*C_N* C_N^{-1}H (H^T C_N^{-1} H)^{-1} \\ =(H^T C_N^{-1} H)^{-1} \quad\quad[4]$

把[4]代入[3]中

即证明

$AC_NA^T - (H^T C_N^{-1} H)^{-1} \geq 0 \quad\quad[5]$

我们就是要证明这两个矩阵的差矩阵是个正定矩阵

我们引入下面式子，该式子一定是正定的

$(A-(H^T C_N^{-1} H)^{-1}H^T C_N^{-1})C_N (A-(H^T C_N^{-1} H)^{-1}H^T C_N^{-1})^T \geq 0 \quad\quad[6]$
下面进行证明

首先我们证明C_N一定是个正定矩阵,我们从正定矩阵的定义出发，就是其二次型恒大于0

$\forall X \in R^n \\ X^T C_N X = X^T E(N-E(N))*E(N-E(N))^T *X \\ = X^T E(N N^T) X =E(X^T N N^T X) = E(X^TN)^2 \geq 0$

因为C_N的二次型是平方的期望，恒大于0，所以C_N是正定矩阵

由正定矩阵的性质，如果协方差矩阵M是正定的，任意矢量N与该协方差矩阵的二次型都是正定的

$\sim P.d. \\ N^T*M*N \sim P.d.$
C_N是正定协方差矩阵，故

$\forall B \in R^n \\ B*C_N*B^T \quad \geq 0$

$令B=(A-(H^T C_N^{-1} H)^{-1}H^T$

所以式[6]一定是正定的

$(A-(H^T C_N^{-1} H)^{-1}H^T C_N^{-1})C_N (A-(H^T C_N^{-1} H)^{-1}H^T C_N^{-1})^T \geq 0$

对该式子进行变形

$*C_N *A^T-A *C_N* C_N^{-1} H (H^T C_N^{-1} H)^{-1} \\- (H^T C_N^{-1}H)^{-1}H^TC_N^{-1}* C_N*A^T \\+ (H^T C_N^{-1} H)^{-1}H^T C_N^{-1} * C_N * C_N^{-1} H (H^T C_N^{-1}H)^{-1} \\ = A *C_N *A^T - A H (H^T C_N^{-1} H)^{-1} \\- (H^T C_N^{-1} H)^{-1}H^T*A^T + (H^T C_N^{-1} H)^{-1} \quad\quad[7]$

根据限制条件

$\quad\quad[8]$

[8]代入[7]中
$*C_N *A^T - A H (H^T C_N^{-1} H)^{-1} \\- (H^T C_N^{-1} H)^{-1}H^T*A^T + (H^T C_N^{-1} H)^{-1}\\= A *C_N *A^T - (H^T C_N^{-1} H)^{-1} \geq 0$
所以我们要证明的[5]式成立，也就是我们类比的结果就是最优线性无偏估计

所以，多参数(矢量)的最优线性无偏估计的结果是

$\hat \theta(Z) =A_{opt}Z = (H^T C_N^{-1} H)^{-1} H^T C_N^{-1}Z$

如果C_N是单位阵

$A_{opt}Z = (H^T H)^{-1} H^T Z$

2.3.3 随机变量的最优线性无偏估计 BLUE

刚才我们研究的对象是确定的变量，我们研究的问题是，我们有一组随自变量变化的点，我们如何用这些点去拟合一条直线，从表示因变量随着自变量的变化情况。

现在我们的研究对象变成了随机的变量，我们研究的问题是，如果有一个或者一组随机变量，我们通过什么样的线性组合，能够让这一个或者一组随机变量去表示另外一个随机变量呢?

2.3.3.1 一个随机变量对另一个随机变量做线性估计

我们首先研究，如何用一个随机变量去描述另外一个随机变量,假设有随机变量Y和Z,我们对Z进行某些线性变化，让这个变量能够逼近Y

$\\ Z =>\alpha Z ->Y$

优化条件

$\alpha Z)^2$

我们对α求导，令导数为0

$g(\alpha) =E(Y- \alpha Z)^2$

$\nabla_\alpha g(\alpha) = E[-2Z (Y-\alpha Z)] = 0$

整理一下

$\alpha E(Z^2)$

$\alpha = \frac{E(ZY)}{E(Z^2)}$
得到的结果是ZY互相关除以Z的自相关

2.3.3.2 一组随机变量对另一个随机变量做线性估计

我们继续沿着这个思路，研究如何用一组随机变量去描述一个随机变量

假设我们有一组随机变量Z_k，我们希望用Z_k来描述随机变量Y

$Y,Z_1,Z_2,...,Z_n => \alpha_1 Z_1 +...+ \alpha_n Z_n -> Y$

我们需要做的就是

$\alpha^T Z)^2$

$\alpha = (\alpha_1,...\alpha_n)$

此时对g(α)求梯度

$\nabla_\alpha g(\alpha) = \nabla_\alpha E(Y- \alpha^T Z)^2 \\ = \nabla_\alpha E(Y- \alpha^T Z)(Y- \alpha^T Z)^T \\ = \nabla_\alpha (E(Y*Y^T) - \alpha^T E(ZY) - E(Y Z^T)\alpha + \alpha^T E(Z Z^T) \alpha) \\ = -E(ZY) - E(ZY^T) + 2E(ZZ^T)*\alpha = 0$