最小二乘估计（Least squares estimation）

最新推荐文章于 2025-03-19 09:23:30 发布

朽木为萤

最新推荐文章于 2025-03-19 09:23:30 发布

阅读量1.8w

点赞数 28

分类专栏：估计理论随笔文章标签：协方差算法

本文链接：https://blog.csdn.net/buxinlegan/article/details/107355172

版权

估计理论随笔专栏收录该内容

5 篇文章

订阅专栏

最小二乘估计（Least squares estimation）

最小二乘估计面向的问题
最小二乘估计（Least squares estimation）
加权最小二乘估计（Weighted least squares estimation）
递推最小二乘估计（Recursive least squares estimation）

最小二乘估计面向的问题

现有一色环模糊的电阻，不知道其真实电阻值，但是手头有一个万用表。由于测量方法和万用表精度问题，测量误差不可避免。这就需要我们从具有加性噪声的量测中估计出电阻的真值。电阻真值是个未知的恒定标量。为了使问题描述更具有普遍性，将电阻真值看作一恒定向量，也就是说，待估计量的数值是不随着时间改变的。

下面用数学术语来描述这个估计问题，假设 $x$ 是一个 $n$ 维待估计的未知恒定向量，现在有 $k$ 个量测数据 $y_1,y_2,...,y_k$ ，如何得到真值 $x$ 的最优估计 $\hat{x}$ ，便是最小二乘估计解决的问题。假设每个量测数据是真值的线性组合并加上噪声 $y_{1}=H_{11}x_{1}+H_{12}x_{2}+...+H_{1n}x_{n}+\nu_{1}\\ \vdots\\ y_{k}=H_{k1}x_{1}+H_{k2}x_{2}+...+H_{kn}x_{n}+\nu_{k}$ 上式可以看做由 $k$ 个方程组解得 $n$ 个未知数，方程有且只有唯一解则满足 $k\ge n$ ，量测数据是线性独立的，将其写成矩阵的形式为 $y=Hx+\nu$ 待估量 $x$ 和量测 $y$ 之间的观测矩阵 $H$ 假定是已知的。

最小二乘估计（Least squares estimation）

最优准则的选取不同决定了不同的估计方法。其中最为直观的一种方法为：最优估计 $\hat{x}$ 可以使所有量测的误差总体达到最小，这便是最小二乘估计采取的最优准则。第 $i$ 个量测残差为 $\varepsilon_{i}=y_{i}-H_{i}\hat{x}$ 所有量测误差之和为 $J=\varepsilon_{1}^2+\varepsilon_{2}^2+...+\varepsilon_{k}^2=\varepsilon^{T}\varepsilon$ 其中 $\varepsilon=y-H\hat{x}$ ，将 $J$ 改写为 $J=(y-H\hat{x})^{T}(y-H\hat{x})=y^Ty-y^TH\hat{x}-\hat{x}^TH^Ty+\hat{x}^TH^TH\hat{x}$ 让 $J$ 对 $\hat{x}$ 的一阶偏导等于0，找到使 $J$ 最小的值 $\hat{x}$ $\dfrac{\partial J}{\partial \hat{x}}=-y^TH-y^TH+2\hat{x}^TH^TH=0$ 得到估计值 $\hat{x}=(H^TH)^{-1}H^Ty$ 并且二阶导数为 $\dfrac{\partial^2J}{\partial\hat{x}^2}=2H^TH$ ，这是一个正半定阵，那么 $\hat{x}$ 为最小值点。

加权最小二乘估计（Weighted least squares estimation）

让我们回到最初电阻测量的问题，不同的是，现在有多个价位的万用表可供使用，不同价位的万用表测量精度不同，表现在噪声的方差大小不一。这使得不同精度万用表测得数据的可信度也是不一样的，精度差的万用表测量的可信度较低，但无论精度如何，量测数据都不应丢弃，因为即使可信度较低的量测仍包含少量信息。

假定每次测量的噪声是零均值且独立的，噪声协方差矩阵为 $R=E(\nu\nu^T)=\begin{pmatrix} \sigma_1^2&\cdots&0\\ \vdots&\ddots&\vdots\\ 0&\cdots& \sigma_k^2 \end{pmatrix}$ 其中 $\sigma_i^2=E[\nu_i^2]$ ，方差越大可信度越低。因此，对量测方差进行加权，加权后的总体误差为 $J=\dfrac{\varepsilon_{1}^2}{\sigma_1^2}+\dfrac{\varepsilon_{2}^2}{\sigma_2^2}+...+\dfrac{\varepsilon_{k}^2}{\sigma_k^2}=\varepsilon^{T}R^{-1}\varepsilon$ 将 $\varepsilon=y-H\hat{x}$ 代入展开得到 $J=y^TR^{-1}y-y^TR^{-1}H\hat{x}-\hat{x}^TH^TR^{-1}y+\hat{x}^TH^TR^{-1}H\hat{x}$ 对 $\hat{x}$ 求一阶导为 $\dfrac{\partial J}{\partial \hat{x}}=-y^TR^{-1}H-y^TR^{-1}H+2\hat{x}^TH^TR^{-1}H=0$ 得到估计值 $\hat{x}=(H^TR^{-1}H)^{-1}H^TR^{-1}y$ 注意量测噪声存在逆矩阵， $R$ 是非奇异矩阵，也就是说加权最小二乘要求每个测量数据被噪声干扰。 $J$ 对 $\hat{x}$ 的二阶偏导为 $2H^TR^{-1}H$ ，它是一个正半定阵。

递推最小二乘估计（Recursive least squares estimation）

递推最小二乘估计

上述最小二乘估计是建立在已获得全部量测数据的基础之上，若想在测量数据的同时，实现对真值的最小二乘估计则需要用到递推形式。已知 $k - 1$ 时刻的估计值 $\hat{x}_{k-1}$ 和 $k$ 时刻的量测 $y_k$ ，实现估计 $\hat{x}_k$ 。 $k$ 时刻的观测数据获得根据 $y_k=H_kx+\nu_k$ $k$ 时刻估计和 $\hat{x}_{k-1}$ 以及 $y_k$ 的关系为 $\hat{x}_k=\hat{x}_{k-1}+K_{k}(y_k-H_{k}\hat{x}_{k-1})$ 括号里被称作修正项， $K_k$ 是修正增益，首先考虑估计的无偏性（估计的无偏性是指估计值 $\hat{x}$ 的期望等于真值 $x$ ，i.e. $E[x-\hat{x}]=0$ ） $\begin{aligned}E[x-\hat{x}_k]&=E[x-\hat{x}_{k-1}-K_{k}(H_kx+\nu_k-H_{k}\hat{x}_{k-1})]\\&=E[\varepsilon_{k-1}-K_kH_k\varepsilon_{k-1}-K_k\nu_k]\\&=(I-K_kH_k)E[\varepsilon_{k-1}]-K_kE[\nu_k]\end{aligned}$ 如果 $E[\nu_k]=0$ 和 $E[\varepsilon_{k-1}]=0$ ，则 $E[\varepsilon_{k}]=0$ 。若初值设置等于真值，那么所有时刻的估计值都等于真值，并且不受增益 $K_k$ 的影响。

最优准则

递归最小二乘估计的最优准则为，使 $k$ 时刻估计误差方差之和最小，数学表述为 $\begin{aligned}J_k&=E[(x_1-\hat{x}_1)^2]+E[(x_2-\hat{x}_2)^2]+\cdots+E[(x_n-\hat{x}_n)^2]\\&=E[\varepsilon_{x1,k}^2+\varepsilon_{x2,k}^2+\cdots+\varepsilon_{xn,k}^2]\\&=E[\text{Tr}(\varepsilon_{k}\varepsilon_{k}^T)]\\&=\text{Tr}P_{k}\end{aligned}$ 将 $P_k$ 展开得到 $\begin{aligned} P_k&=E[\varepsilon_{k}\varepsilon_{k}^T]\\&=(I-K_kH_k)E[\varepsilon_{k-1}\varepsilon_{k-1}^T](I-K_kH_k)^T+K_kE[\nu_k\nu_k^T]K_k^T\\&=(I-K_kH_k)P_{k-1}(I-K_kH_k)^T+K_kR_kK_k^T\end{aligned}$ 该式由于对称性保证了良好协方差矩阵的正定性，后面将会举例说明在计算精度有限的系统上，这种形式能保证数值计算。有矩阵求导公式 $\dfrac{\partial \text{Tr}(ABA^T)}{\partial A}=2AB$ （要求 $B$ 是对称阵）。 $J_k$ 对 $K_k$ 求偏导为 $\dfrac{\partial J_k}{\partial K_k}=2(I-K_kH_k)P_{k-1}(-H_k^T)+2K_kR_k$ 一阶偏导数等于零，计算得到增益 $K_k$ 为 $K_k=P_{k-1}H_k^T(H_kP_{k-1}H_k^T+R_k)^{-1}$

递推最小二乘估计步骤

计算增益
$K_k=P_{k-1}H_k^T(H_kP_{k-1}H_k^T+R_k)^{-1}$
估计值更新
$\hat{x}_k=\hat{x}_{k-1}+K_{k}(y_k-H_{k}\hat{x}_{k-1})$
协方差更新
$P_k=(I-K_kH_k)P_{k-1}(I-K_kH_k)^T+K_kR_kK_k^T$

协方差更新公式的三种形式

协方差更新公式有三种形式，在数学上是等价的，但三者在数值计算上有所不同，分别为
$\begin{aligned}&P_k=(I-K_kH_k)P_{k-1}(I-K_kH_k)^T+K_kR_kK_k^T\\&P_k=(I-K_kH_k)P_{k-1}\\&P_k=[P_{k-1}^{-1}+H_k^TR_k^{-1}H_k]^{-1}\end{aligned}$ 第二种形式计算更为简便，但无法确保协方差的正定性；相比之下，第一种形式在结构上对称，能保证协方差矩阵的正定。
例：假设 $H_1=1,R_1=0$ ，初始协方差设为 $P_0=6$ ，计算精度只能达到 $0.001$ ，计算增益 $K_1$ 为 $K_1=P_0(P_0)^{-1}=6(\dfrac{1}{6})=(6)(0.167)=1.002$ 若用第二种协方差更新形式得到 $P_1$ 为 $P_1=(1-K_1)P_0=(-0.002)(6)=-0.012$ 这样计算的方差是个负值，显然是错误的。若采用第一种对称形式计算 $P_1=(1-1.002)P_0(1-1.002)=0$ 因为超出计算机计算精度，所得结果为0，这在理论上是个合理的值。第一种协方差更新公式在计算精度有限情况下保证了协方差矩阵的正定。