递推最小二乘法(Recursive least square, RLS)详细推导

tianmingemmm

已于 2022-07-09 12:00:57 修改

阅读量9.4k

点赞数 28

文章标签：最小二乘法算法机器学习

于 2022-07-09 11:59:52 首次发布

本文链接：https://blog.csdn.net/qq_39645262/article/details/125691638

版权

假设有数据 $(X, Y)$ ，其中 $\in {\mathbb{R}^{m \times d}}$ ， $\in {\mathbb{R}^{m \times 1}}$ ， $m$ 为样本数， $d$ 为特征数，考虑最小二乘解
$\begin{aligned}{\theta_0} = {\left( {{X^{\rm{T}}}X} \right)^{ - 1}}{X^{\rm{T}}}Y = {\Sigma_0}^{-1}{X^{\rm{T}}}Y \tag{1}\end{aligned}$
$\Rightarrow {\Sigma_0}{\theta_0} = {X^{\rm{T}}}Y \tag{2}$
当新数据 $\left( {{X_1},{Y_1}} \right)$ 到来时，更新模型，得到新的回归系数
$\begin{aligned} {\theta_1} &= {\left( {{{\left[ {\begin{array}{cc} X\\ {{X_1}} \end{array}} \right]}^{\rm{T}}}\left[ {\begin{array}{cc} X\\ {{X_1}} \end{array}} \right]} \right)^{ - 1}}{\left[ {\begin{array}{cc} X\\ {{X_1}} \end{array}} \right]^{\rm{T}}}\left[ {\begin{array}{cc} Y\\ {{Y_1}} \end{array}} \right] \\ &= {\Sigma _1}^{ - 1}{\left[ {\begin{array}{cc} X\\ {{X_1}} \end{array}} \right]^{\rm{T}}}\left[ {\begin{array}{cc} Y\\ {{Y_1}} \end{array}} \right]\tag{3} \end{aligned}$
其中
$\begin{aligned} {\Sigma _1} &= {\left[ {\begin{array}{cc} X\\ {{X_1}} \end{array}} \right]^{\rm{T}}}\left[ {\begin{array}{cc} X\\ {{X_1}} \end{array}} \right] \\ &= {X^{\rm{T}}}X + X_1^{\rm{T}}{X_1} \\ &= {\Sigma _0} + X_1^{\rm{T}}{X_1} \end{aligned} \tag{4}$
$\begin{aligned} \Rightarrow {\Sigma _0} = {\Sigma _1} - X_1^{\rm{T}}{X_1} \end{aligned} \tag{5}$
根据公式(4)的结果，通过归纳可得
$\begin{aligned} {\Sigma _k} = {\Sigma _{k - 1}} + X_k^{\rm{T}}{X_k} \end{aligned} \tag{6}$
$\begin{aligned} {\left[ {\begin{array}{cc} X\\ {{X_1}} \end{array}} \right]^{\rm{T}}}\left[ {\begin{array}{cc} Y\\ {{Y_1}} \end{array}} \right] &= {X^{\rm{T}}}Y + X_1^{\rm{T}}{Y_1}\\ &= {\Sigma _0}{\theta_0} + X_1^{\rm{T}}{Y_1} \quad //公式(2)结果替换得到\\ &= \left( {{\Sigma _1} - X_1^{\rm{T}}{X_1}} \right){\theta_0} + X_1^{\rm{T}}{Y_1} \quad //公式(5)结果替换得到\\ &= {\Sigma _1}{\theta_0} + X_1^{\rm{T}}\left( {{Y_1} - {X_1}{\theta_0}} \right) \end{aligned} \tag{7}$
将公式(7)回带到公式(3)：
$\begin{aligned} {\theta_1} &= {\Sigma _1}^{ - 1}\left( {{\Sigma _1}{\theta_0} + X_1^{\rm{T}}\left( {{Y_1} - {X_1}{\theta_0}} \right)} \right) \\ &= {\theta_0} + {\Sigma _1}^{ - 1}X_1^{\rm{T}}\left( {{Y_1} - {X_1}{\theta_0}} \right) \end{aligned} \tag{8}$
根据公式(8)的结果，通过归纳可得
$\begin{aligned} {\theta_k} = {\theta_{k - 1}} + {\Sigma _k}^{ - 1}X_k^{\rm{T}}\left( {{Y_k} - {X_k}{\theta_{k - 1}}} \right) \end{aligned} \tag{9}$

到这里，已经能够实现对最小二乘的递推，其过程可概括如下，我们称为算法1:

根据公式(5)更新 ${\Sigma _k} = {\Sigma _{k - 1}} + X_k^{\rm{T}}{X_k}$ ；
根据公式(9)更新 ${\theta_k} = {\theta_{k - 1}} + {\Sigma _k}^{ - 1}X_k^{\rm{T}}\left( {{Y_k} - {X_k}{\theta_{k - 1}}} \right)$ 。

但以上过程存在两个问题：

对矩阵 $\Sigma_k$ 的求逆计算复杂度比较高，我们能否在递推过程中避免对 $\Sigma_k$ 的求逆计算，而直接更新它的逆矩阵；
矩阵 $\Sigma_k$ 中的元素会随着数据量的增加不断增大，可能会发生数值溢出的问题。

针对以上问题，我们要对公式进一步改造，根据Sherman-Morrison-Woodbury公式：
${\left( {A + U{V^{\rm{T}}}} \right)^{ - 1}} = {A^{ - 1}} - {A^{ - 1}}U{\left( {I + {V^{\rm{T}}}{A^{ - 1}}U} \right)^{ - 1}}{V^{\rm{T}}}{A^{ - 1}}$
公式(6)的逆可写成如下形式
$\begin{aligned} {\Sigma _k}^{ - 1} &= {\left( {{\Sigma _{k - 1}} + X_k^{\rm{T}}{X_k}} \right)^{ - 1}} \\ &= \Sigma _{k - 1}^{ - 1} - \Sigma _{k - 1}^{ - 1}X_k^{\rm{T}}{\left( {I + {X_k}\Sigma _{k - 1}^{ - 1}X_k^{\rm{T}}} \right)^{ - 1}}{X_k}\Sigma _{k - 1}^{ - 1} \end{aligned} \tag{10}$
令 ${P_k} = {\sum _k}^{ - 1}$ ，公式(10)变为：
$\begin{aligned} {P_k} = {P_{k - 1}} - {P_{k - 1}}X_k^{\rm{T}}{\left( {I + {X_k}{P_{k - 1}}X_k^{\rm{T}}} \right)^{ - 1}}{X_k}{P_{k - 1}} \end{aligned} \tag{11}$
公式(9)变为：
$\begin{aligned} {\theta_k} = {\theta_{k - 1}} + {P_k}X_k^{\rm{T}}\left( {{Y_k} - {X_k}{\theta_{k - 1}}} \right) \end{aligned} \tag{12}$
注意到，公式(11)依然存在对 ${X_k}{P_{k - 1}}X_k^{\rm{T}}}$ 的求逆运算，这似乎依然没有解决上述问题1，我们避免了对 $\Sigma_k$ 的求逆，但却又引入了一个新的逆。事实上，如果数据是逐个到达的，则 $X_k$ 为一个行向量(在本文中，一个样本我们用行向量表示，这主要是因为本文规定数据矩阵中每一行代表一个样本)，因此 ${X_k}{P_{k - 1}}X_k^{\rm{T}}}$ 最终得到结果为一个数值，我们无需矩阵求逆计算，只需要取它的倒数就好了，即
$\begin{aligned} {P_k} = {P_{k - 1}} - \frac{{{P_{k - 1}}X_k^{\rm{T}}{X_k}{P_{k - 1}}}}{{1 + {X_k}{P_{k - 1}}X_k^{\rm{T}}}} \end{aligned} \tag{13}$
于是我们得到了新的递推算法如下,我们称为算法2：

根据公式(13)更新 ${P_k} = {P_{k - 1}} - \frac{{{P_{k - 1}}X_k^{\rm{T}}{X_k}{P_{k - 1}}}}{{1 + {X_k}{P_{k - 1}}X_k^{\rm{T}}}}；$
根据公式(12)更新 ${\theta_k} = {\theta_{k - 1}} + {P_k}X_k^{\rm{T}}\left( {{Y_k} - {X_k}{\theta_{k - 1}}} \right)$ 。

一些书上的递推算法可能并非这样的形式，我们可以进一步对上述过程进行一些整理。在一些书中， ${K_k} = {P_k}X_k^{\rm{T}}$ 也被称为增益， ${Y_k} - {X_k}{\theta_{k - 1}}$ 被称为新息，顾名思义，就是引入的新信息。
$\begin{aligned} {K_k} &= {P_k}X_k^{\rm{T}}\\ &= \left( {{P_{k - 1}} - {P_{k - 1}}X_k^{\rm{T}}{{\left( {I + {X_k}{P_{k - 1}}X_k^{\rm{T}}} \right)}^{ - 1}}{X_k}{P_{k - 1}}} \right)X_k^{\rm{T}} \quad //公式(11)结果替换得到\\ &= {P_{k - 1}}X_k^{\rm{T}}\left( {I - {{\left( {I + {X_k}{P_{k - 1}}X_k^{\rm{T}}} \right)}^{ - 1}}{X_k}{P_{k - 1}}X_k^{\rm{T}}} \right)\\ &= {P_{k - 1}}X_k^{\rm{T}}{\left( {I + {X_k}{P_{k - 1}}X_k^{\rm{T}}} \right)^{ - 1}}\left( {\left( {I + {X_k}{P_{k - 1}}X_k^{\rm{T}}} \right) - {X_k}{P_{k - 1}}X_k^{\rm{T}}} \right)\\ &= {P_{k - 1}}X_k^{\rm{T}}{\left( {I + {X_k}{P_{k - 1}}X_k^{\rm{T}}} \right)^{ - 1}} \end{aligned} \tag{14}$
将公式(14)的结果代入到公式(11)可得
$\begin{aligned} {P_k} = {P_{k - 1}} - {K_k}{X_k}{P_{k - 1}} = \left( {I - {K_k}{X_k}} \right){P_{k - 1}} \end{aligned} \tag{15}$
于是，算法2可进一步的写为如下形式，我们称为算法3：

根据公式(14)更新模型增益 ${K_k} = {P_{k - 1}}X_k^{\rm{T}}{\left( {I + {X_k}{P_{k - 1}}X_k^{\rm{T}}} \right)^{ - 1}}$ ；
根据公式(15)更新 ${P_k} = \left( {I - {K_k}{X_k}} \right){P_{k - 1}}$ ；
更新回归系数 ${\theta_k} = {\theta_{k - 1}} + {K_k}\left( {{Y_k} - {X_k}{\theta_{k - 1}}} \right)$