递归最小二乘算法（原理篇）

wangYH.air

已于 2023-12-20 23:07:15 修改

阅读量1.3w

点赞数 15

分类专栏：基础理论文章标签：算法概率论机器学习

于 2022-01-22 21:48:59 首次发布

本文链接：https://blog.csdn.net/weixin_40297883/article/details/122644012

版权

基础理论专栏收录该内容

21 篇文章

订阅专栏

基础原理

最小二乘法，也称最小平方法，即计算误差平方和最小，得到的最佳估计。
核心问题：最小二乘估计的合理性证明是什么？ 数学王子高斯（1777－1855）也像我们一样心存怀疑。高斯随后通过概率论的理论证明了最小二乘法的合理性。

参考文献

最小二乘法的递推形式推导
 最小二乘法的本质是什么
 最小二乘法的几何意义
 矩阵形式的最小二乘法
 矩阵求导公式的推导
 实值函数相对于向量的梯度

理论公式

最简单的最小二乘法

单参数的观测与估计：
$\text{误差的平方和：}S_{\epsilon ^2}=\sum{\left( y-y_i \right) ^2}$
法国数学家勒让德表示：总误差平方和最小时，y值即为最佳估计。
$\frac{dS_{\epsilon ^2}}{dy}=\frac{d}{dt}\sum{\left( y-y_i \right) ^2}=2\sum{\left( y-y_i \right)}$
当i最大为5时，可得：
$2\sum{\left( y-y_i \right)}=0 \\ \left( y-y_1 \right) +\left( y-y_2 \right) +\left( y-y_3 \right) +\left( y-y_4 \right) +\left( y-y_5 \right) =0 \\ y=\frac{y_1+y_2+y_3+y_4+y_5}{5}$
当估计的对象为一个一元一次函数时，设估计对象函数为：
$y\left( x \right) =ax+b$
若已知测量点（xi,yi），则最小二乘误差为：
$S_{\epsilon ^2}=\sum{\left( ax_i+b-y_i \right) ^2}$
不同的a，b参数会导致不同的误差平方和，即误差平方和是a,b的函数。
计算偏导数为0可得：
$\begin{cases} \frac{\partial S_{\epsilon ^2}}{\partial a}=2\sum{\left( ax_i+b-y_i \right) x_i=0}\\ \frac{\partial S_{\epsilon ^2}}{\partial b}=2\sum{\left( ax_i+b-y_i \right) =0}\\ \end{cases}$
求解该线性方程组可得a,b得最佳估值。
对于不同得函数关系，对于2，3，4等多参数得估计方法是类似的.

矩阵形式的最小二乘算法

$A\vec{x}=\vec{F} \\ \text{其中}\vec{x}\text{为代求参数；}A\text{为输入自变量的采样值；}\vec{F}\text{为观测输出值} \\ \text{根据最小二乘原理，使得误差平方和最小的解为估计参数}\vec{x} \\ \min \varepsilon =\left| A\vec{x}-\vec{F} \right|^2\left( \text{相当于自身的点积} \right) \\ \min \varepsilon =\left( A\vec{x}-\vec{F} \right) ^T\left( A\vec{x}-\vec{F} \right) \\ \min \varepsilon =\left( \vec{x}^TA^T-\vec{F}^T \right) \left( A\vec{x}-\vec{F} \right) \\ \min \varepsilon =\vec{x}^TA^TA\vec{x}-\vec{F}^TA\vec{x}-\vec{x}^TA^T\vec{F}+\vec{F}^T\vec{F} \\ \text{上式中：每项的计算结果为标量，}\vec{F}^TA\vec{x}\text{与}\vec{x}^TA^T\vec{F}\text{互为转置。} \\ \text{根据矩阵运算性质可知：}\vec{F}^TA\vec{x}=\vec{x}^TA^T\vec{F} \\ \min \varepsilon =\vec{x}^TA^TA\vec{x}-2\vec{F}^TA\vec{x}+\vec{F}^T\vec{F} \\ \varepsilon \text{对}\vec{x}\text{的每一个元素求导，可以得到}n\text{个偏导数，令这些偏导为}0\text{，} \\ \text{得到的}\vec{x}\text{即为估计值。} \\ \text{计算实值标量函数}\varepsilon \left( \vec{x} \right) \text{对估测向量}\vec{x}\text{偏导矩阵：} \\ \text{计算的结果为列向量：} \\ \frac{\partial \varepsilon}{\partial \vec{x}}=\frac{\partial \left( \vec{x}^TA^TA\vec{x}-2\vec{F}^TA\vec{x} \right)}{\partial \vec{x}}=\vec{0} \\ \\$
应用矩阵求导的性质：
在这里插入图片描述

因此可得：
$2A^TA\vec{x}-2\vec{F}^TA=\vec{0}$
简化可得：
$\vec{x}=\left( A^TA \right) ^{-1}\vec{F}^TA$
上式即矩阵形式的最小二乘法的表达式。

对矩阵求导的证明：
$\frac{\partial \left( \vec{x}^TA^TA\vec{x} \right)}{\partial \vec{x}}$

$\text{对实值标量函数对向量求导的证明：} \\ \text{设：}\vec{x}=\left[ \begin{array}{l} x_1\\ x_2\\ ...\\ x_n\\ \end{array} \right] ,A=\left[ \begin{matrix} a_{11}& a_{12}& ...& a_{1n}\\ a_{21}& a_{22}& ...& a_{2n}\\ ...& ...& ...& ...\\ a_{m1}& a_{m2}& ...& a_{mn}\\ \end{matrix} \right] ,A=A^T \\ \vec{F}=\left[ \begin{array}{l} F_1\\ F_1\\ ...\\ F_n\\ \end{array} \right]$
$\vec{x}^TA^TA\vec{x}=\left[ \begin{matrix} x_1& ...& x_n\\ \end{matrix} \right] \left[ \begin{matrix} a_{11}& a_{21}& ...& a_{m1}\\ a_{12}& a_{22}& ...& a_{2n}\\ ...& ...& ...& ...\\ a_{1n}& ...& ...& a_{mn}\\ \end{matrix} \right] \left[ \begin{matrix} a_{11}& a_{12}& ...& a_{1n}\\ a_{21}& a_{22}& ...& a_{2n}\\ ...& ...& ...& ...\\ a_{m1}& a_{m2}& ...& a_{mn}\\ \end{matrix} \right] \left[ \begin{array}{l} x_1\\ x_2\\ ...\\ x_n\\ \end{array} \right] \\ \text{不妨设}A^TA=B \\ \vec{x}^TA^TA\vec{x}=\left[ \begin{matrix} x_1& ...& x_n\\ \end{matrix} \right] \left[ \begin{matrix} b_{11}& b_{21}& ...& b_{1n}\\ b_{21}& b_{22}& ...& b_{2n}\\ ...& ...& ...& ...\\ b_{n1}& ...& ...& b_{nn}\\ \end{matrix} \right] \left[ \begin{array}{l} x_1\\ x_2\\ ...\\ x_n\\ \end{array} \right] \\ \vec{x}^TA^TA\vec{x}=\left( b_{11}x_1x_1+b_{21}x_2x_1+...+b_{n1}x_nx_1 \right) +\left( b_{12}x_1x_2+b_{22}x_2x_2+...+b_{n2}x_nx_2 \right) +...+\left( b_{n1}x_1x_n+b_{2n}x_2x_n+...+b_{nn}x_nx_n \right) \\ \frac{\partial \left( \vec{x}^TA^TA\vec{x} \right)}{\partial \vec{x}}=\left[ \begin{array}{c} \left( b_{11}x_1+b_{21}x_2+...+b_{n1}x_n \right) +b_{11}x_1+b_{12}x_2+...b_{n1}x_n\\ ...\\ ...\\ \left( b_{n1}x_1+b_{n2}x_2+...+b_{nn}x_n \right) +b_{n1}x_1+b_{2n}x_2+...b_{nn}x_n\\ \end{array} \right] =B\vec{x}+B^T\vec{x}$
$\text{由于}B=B^T \\ \text{因此：} \\ \frac{\partial \left( \vec{x}^TA^TA\vec{x} \right)}{\partial \vec{x}}=2A^TA\vec{x}$

递推形式的最小二乘法

参考“朽木为萤”的推导链接，由于矩阵形式的最小二乘法是建立在全部测量数据已知的情况进行的计算，若想实现测量数据的同时，实现对真值的最小二乘估计则需要用到递推形式，已知k-1时刻的估计值 $\hat{x}_{k-1}$ ,和k时刻的量侧 $y_k$ ，实现估计 $\hat{x}_{k}$ 。k时刻的观测数据获得下式：
$y_k=H_kx+\nu _k$
k时刻的估计和 $\hat{x}_{k-1}$ 以及 $y_k$ 的关系为：
$\hat{x}_k=\hat{x}_{k-1}+K_k\left( y_k-H_k\hat{x}_{k-1} \right)$
括号里是 $x_k$ 的估计修正， $K_k$ 是修正增益，以最简单的无偏估计为例，即： $E\left( x-\hat{x} \right) =0$
即：
$E\left( x-\hat{x}_k \right) =E\left[ x-\hat{x}_{k-1}-K_k\left( H_kx+\nu _k-H_k\hat{x}_{k-1} \right) \right] \\ E\left( x-\hat{x}_k \right) =E\left[ \varepsilon _{k-1}-K_kH_k\varepsilon _{k-1}-K_k\nu _k \right] \\ E\left( x-\hat{x}_k \right) =\left( I-K_kH_k \right) E\left[ \varepsilon _{k-1} \right] -K_kE\left[ \nu _k \right]$
对于一般情况，即有偏估计情况下，递推最小二乘的最优准则是：使k时刻估计误差方差之和最小，数学表述为：
$J_k=E\left[ \left( x_1-\hat{x}_1 \right) ^2 \right] +E\left[ \left( x_2-\hat{x}_2 \right) ^2 \right] +...+E\left[ \left( x_n-\hat{x}_n \right) ^2 \right] \\ =E\left[ \varepsilon _{x1.k}^{2}+\varepsilon _{x2.k}^{2}+...+\varepsilon _{xn.k}^{2} \right] \\ =E\left[ T_r\left( \varepsilon _k\varepsilon _{k}^{T} \right) \right] \\ =T_rP_k \\ \text{展开}P_k\text{，} \\ P_k=E\left[ \varepsilon _k\varepsilon _{k}^{T} \right] \\ P_k=\left( I-K_kH_k \right) P_{k-1}\left( I-K_kH_k \right) ^T+K_kR\left[ \nu _k \right] K_{k}^{T} \\ \text{根据上文计算的矩阵求导公式可得：} \\ \frac{\partial J_k}{\partial K_k}=2\left( I-K_kH_k \right) P_{k-1}\left( -H_k \right) +2K_kR_k \\ \text{令上式为}0\text{可得修正系数计算公式：} \\ 0=2\left( I-K_kH_k \right) P_{k-1}\left( -H_{k}^{T} \right) +2K_kR_k \\ \left( I-K_kH_k \right) P_{k-1}H_{k}^{T}=K_kR_k \\ K_k=P_{k-1}H_{k}^{T}\left( R_k+H_kP_{k-1}H_{k}^{T} \right) ^T$
因此可得递归最小二乘估计的步骤：
计算增益:
$K_k=P_{k-1}H_{k}^{T}\left( R_k+H_kP_{k-1}H_{k}^{T} \right) ^T$
估计值更新:
$\hat{x}_k=\hat{x}_{k-1}+K_k\left( y_k-H_k\hat{x}_{k-1} \right)$
协方差更新：
$P_k=\left( I-K_kH_k \right) P_{k-1}\left( I-K_kH_k \right) ^T+K_kR\left[ \nu _k \right] K_{k}^{T}$