递推最小二乘遗忘因子法(Recursive Forgetting Factor, RFF)

tianmingemmm

已于 2022-07-11 11:34:00 修改

阅读量8k

点赞数 23

文章标签： python 算法人工智能

于 2022-07-11 11:14:25 首次发布

本文链接：https://blog.csdn.net/qq_39645262/article/details/125717578

版权

本文探讨了数据饱和现象在递推最小二乘算法中的影响，介绍了带遗忘因子的方法，通过遗忘因子调整数据权重，避免模型过饱和。通过Sherman-Morrison-Woodbury公式，提出了两种改进算法：算法2利用逆矩阵递推和算法3简化为增益与新息的更新。

摘要由CSDN通过智能技术生成

在普通的递推最小二乘算法中，随着数据的不断到来，显然矩阵 $X^TX$ 中的元素会变得越来越大，而矩阵 $P_k$ 作为 $X^TX$ 的逆矩阵，则会逐渐趋于零，这时，模型将无法继续更新或者更新极其缓慢，这就是数据饱和现象。我们也可以更加直观的理解为，由于过去累加了很多的数据，当前到来的数据与之前累加的数据相比就如一滴水掉落到大海，不会惊起任何波澜。针对数据饱和问题，其中一个解决方案就是带遗忘因子的递推最小二乘法。

假设有数据 $(X, Y)$ ，其中 $\in {\mathbb{R}^{m \times d}}$ ， $\in {\mathbb{R}^{m \times 1}}$ ， $m$ 为样本数， $d$ 为特征数，考虑最小二乘解

$\begin{aligned}{\theta_0} = {\left( {{X^{\rm{T}}}X} \right)^{ - 1}}{X^{\rm{T}}}Y = {\Sigma_0}^{-1}{X^{\rm{T}}}Y \tag{1}\end{aligned}$

$\Rightarrow {\Sigma_0}{\theta_0} = {X^{\rm{T}}}Y \tag{2}$

当新数据 $\left( {{X_1},{Y_1}} \right)$ 到来时，更新模型。我们希望当前的数据对于回归结果更加重要，而过去数据的重要性随着时间的回溯依次降低，从而使得模型能够更好的适应当前数据的变化，克服数据饱和问题。为了达到上述目的，我们可以给之前数据的损失乘以一个权重 $\alpha, 0<\alpha<1$ ，即
$\alpha \left\| {Y - X\theta } \right\|_2^2 + \left\| {{Y_1} - {X_1}\theta } \right\|_2^2 = \left\| {\left[ {\begin{array}{cc} {\sqrt \alpha Y} \\ {{Y_1}} \end{array}} \right] - \left[ {\begin{array}{cc} {\sqrt \alpha X} \\ {{X_1}} \end{array}} \right]\theta } \right\|_2^2$
于是得到新的回归系数

$\begin{aligned} {\theta_1} &= {\left( {{{\left[ {\begin{array}{cc} {\sqrt \alpha }X\\ {{X_1}} \end{array}} \right]}^{\rm{T}}}\left[ {\begin{array}{cc} {\sqrt \alpha }X\\ {{X_1}} \end{array}} \right]} \right)^{ - 1}}{\left[ {\begin{array}{cc} {\sqrt \alpha }X\\ {{X_1}} \end{array}} \right]^{\rm{T}}}\left[ {\begin{array}{cc} {\sqrt \alpha }Y\\ {{Y_1}} \end{array}} \right] \\ &= {\Sigma _1}^{ - 1}{\left[ {\begin{array}{cc} {\sqrt \alpha }X\\ {{X_1}} \end{array}} \right]^{\rm{T}}}\left[ {\begin{array}{cc} {\sqrt \alpha }Y\\ {{Y_1}} \end{array}} \right]\tag{3} \end{aligned}$

其中

$\begin{aligned} {\Sigma _1} &= {\left[ {\begin{array}{cc} {\sqrt \alpha }X\\ {{X_1}} \end{array}} \right]^{\rm{T}}}\left[ {\begin{array}{cc} {\sqrt \alpha }X\\ {{X_1}} \end{array}} \right] \\ &= \alpha {X^{\rm{T}}}X + X_1^{\rm{T}}{X_1} \\ &= \alpha {\Sigma _0} + X_1^{\rm{T}}{X_1} \end{aligned} \tag{4}$

$\begin{aligned} \Rightarrow \alpha {\Sigma _0} = {\Sigma _1} - X_1^{\rm{T}}{X_1} \end{aligned} \tag{5}$

根据公式(4)的结果，通过归纳可得
$\begin{aligned} {\Sigma _k} = \alpha {\Sigma _{k - 1}} + X_k^{\rm{T}}{X_k} \end{aligned} \tag{6}$
从公式(6)可以很容易看出，这是一个典型的套娃行为，当前的权重为1，上一次的权重为 $\alpha$ ，通过一次套娃 $\alpha{\Sigma _{k-1}} = \alpha^2 {\Sigma _{k - 2}} + \alpha X_{k-1}^{\rm{T}}{X_{k-1}}$ ，我们发现上上次的权重变成了 $\alpha^2$ ，依次类推，最终我们发现随着时间的回溯，越久的数据权重会越来越低并逐渐趋于0。
$\begin{aligned} {\left[ {\begin{array}{cc} {\sqrt \alpha }X\\ {{X_1}} \end{array}} \right]^{\rm{T}}}\left[ {\begin{array}{cc} {\sqrt \alpha }Y\\ {{Y_1}} \end{array}} \right] &= \alpha {X^{\rm{T}}}Y + X_1^{\rm{T}}{Y_1}\\ &= \alpha {\Sigma _0}{\theta_0} + X_1^{\rm{T}}{Y_1} \quad //公式(2)结果替换得到\\ &= \left( {{\Sigma _1} - X_1^{\rm{T}}{X_1}} \right){\theta_0} + X_1^{\rm{T}}{Y_1} \quad //公式(5)结果替换得到\\ &= {\Sigma _1}{\theta_0} + X_1^{\rm{T}}\left( {{Y_1} - {X_1}{\theta_0}} \right) \end{aligned} \tag{7}$

将公式(7)回带到公式(3)：

$\begin{aligned} {\theta_1} &= {\Sigma _1}^{ - 1}\left( {{\Sigma _1}{\theta_0} + X_1^{\rm{T}}\left( {{Y_1} - {X_1}{\theta_0}} \right)} \right) \\ &= {\theta_0} + {\Sigma _1}^{ - 1}X_1^{\rm{T}}\left( {{Y_1} - {X_1}{\theta_0}} \right) \end{aligned} \tag{8}$

根据公式(8)的结果，通过归纳可得
$\begin{aligned} {\theta_k} = {\theta_{k - 1}} + {\Sigma _k}^{ - 1}X_k^{\rm{T}}\left( {{Y_k} - {X_k}{\theta_{k - 1}}} \right) \end{aligned} \tag{9}$

到这里，已经能够实现对遗忘因子最小二乘的递推，其过程可概括如下，我们称为算法1:

根据公式(5)更新 ${\Sigma _k} = \alpha {\Sigma _{k - 1}} + X_k^{\rm{T}}{X_k}$ ；
根据公式(9)更新 ${\theta_k} = {\theta_{k - 1}} + {\Sigma _k}^{ - 1}X_k^{\rm{T}}\left( {{Y_k} - {X_k}{\theta_{k - 1}}} \right)$ 。

但以上过程存在一个问题：

对矩阵 $\Sigma_k$ 的求逆计算复杂度比较高，我们能否在递推过程中避免对 $\Sigma_k$ 的求逆计算，而直接更新它的逆矩阵；

针对以上问题，我们要对公式进一步改造

根据Sherman-Morrison-Woodbury公式：
${\left( {A + U{V^{\rm{T}}}} \right)^{ - 1}} = {A^{ - 1}} - {A^{ - 1}}U{\left( {I + {V^{\rm{T}}}{A^{ - 1}}U} \right)^{ - 1}}{V^{\rm{T}}}{A^{ - 1}}$
公式(6)的逆可写成如下形式

$\begin{aligned} {\Sigma _k}^{ - 1} &= {\left( \alpha {{\Sigma _{k - 1}} + X_k^{\rm{T}}{X_k}} \right)^{ - 1}} \\ &= \frac{1}{\alpha } \Sigma _{k - 1}^{ - 1} - \frac{1}{\alpha }\Sigma _{k - 1}^{ - 1}X_k^{\rm{T}}{\left( {\alpha I + {X_k}\Sigma _{k - 1}^{ - 1}X_k^{\rm{T}}} \right)^{ - 1}}{X_k}\Sigma _{k - 1}^{ - 1} \end{aligned} \tag{10}$
令 ${P_k} = {\sum _k}^{ - 1}$ ，公式(10)变为：
$\begin{aligned} {P_k} = \frac{1}{\alpha }{P_{k - 1}} - \frac{1}{\alpha }{P_{k - 1}}X_k^{\rm{T}}{\left( {\alpha I + {X_k}{P_{k - 1}}X_k^{\rm{T}}} \right)^{ - 1}}{X_k}{P_{k - 1}} \end{aligned} \tag{11}$
公式(9)变为：
$\begin{aligned} {\theta_k} = {\theta_{k - 1}} + {P_k}X_k^{\rm{T}}\left( {{Y_k} - {X_k}{\theta_{k - 1}}} \right) \end{aligned} \tag{12}$
注意到，公式(11)依然存在对 ${\alpha I + {X_k}{P_{k - 1}}X_k^{\rm{T}}}$ 的求逆运算，这似乎依然没有解决上述问题1，我们避免了对 $\Sigma_k$ 的求逆，但却又引入了一个新的逆。事实上，如果数据是逐个到达的，则 $X_k$ 为一个行向量(在本文中，一个样本我们用行向量表示，这主要是因为本文规定数据矩阵中每一行代表一个样本)，因此 ${\alpha I + {X_k}{P_{k - 1}}X_k^{\rm{T}}}$ 最终得到结果为一个数值，我们无需矩阵求逆计算，只需要取它的倒数就好了，即
$\begin{aligned} {P_k} = \frac{1}{\alpha } {P_{k - 1}} - \frac{1}{\alpha } \frac{{{P_{k - 1}}X_k^{\rm{T}}{X_k}{P_{k - 1}}}}{{\alpha + {X_k}{P_{k - 1}}X_k^{\rm{T}}}} \end{aligned} \tag{13}$
于是我们得到了新的递推算法如下,我们称为算法2：

根据公式(13)更新 ${P_k} = \frac{1}{\alpha } {P_{k - 1}} - \frac{1}{\alpha } \frac{{{P_{k - 1}}X_k^{\rm{T}}{X_k}{P_{k - 1}}}}{{\alpha + {X_k}{P_{k - 1}}X_k^{\rm{T}}}}；$
根据公式(12)更新 ${\theta_k} = {\theta_{k - 1}} + {P_k}X_k^{\rm{T}}\left( {{Y_k} - {X_k}{\theta_{k - 1}}} \right)$ 。

一些书上的递推算法可能并非这样的形式，我们可以进一步对上述过程进行一些整理。在一些书中， ${K_k} = {P_k}X_k^{\rm{T}}$ 也被称为增益， ${Y_k} - {X_k}{\theta_{k - 1}}$ 被称为新息，顾名思义，就是引入的新信息。
$\begin{aligned} {K_k} &= {P_k}X_k^{\rm{T}}\\ &= \left( \frac{1}{\alpha } {{P_{k - 1}} - \frac{1}{\alpha }{P_{k - 1}}X_k^{\rm{T}}{{\left( {\alpha I + {X_k}{P_{k - 1}}X_k^{\rm{T}}} \right)}^{ - 1}}{X_k}{P_{k - 1}}} \right)X_k^{\rm{T}} \quad //公式(11)结果替换得到\\ &= {P_{k - 1}}X_k^{\rm{T}}\left( {\frac{1}{\alpha } I - \frac{1}{\alpha } {{\left( {\alpha I + {X_k}{P_{k - 1}}X_k^{\rm{T}}} \right)}^{ - 1}}{X_k}{P_{k - 1}}X_k^{\rm{T}}} \right)\\ &= {P_{k - 1}}X_k^{\rm{T}}{\left( {\alpha I + {X_k}{P_{k - 1}}X_k^{\rm{T}}} \right)^{ - 1}}\left( \frac{1}{\alpha } {\left( {\alpha I + {X_k}{P_{k - 1}}X_k^{\rm{T}}} \right) - \frac{1}{\alpha } {X_k}{P_{k - 1}}X_k^{\rm{T}}} \right)\\ &= {P_{k - 1}}X_k^{\rm{T}}{\left( {\alpha I + {X_k}{P_{k - 1}}X_k^{\rm{T}}} \right)^{ - 1}} \end{aligned} \tag{14}$
将公式(14)的结果代入到公式(11)可得
$\begin{aligned} {P_k} = \frac{1}{\alpha } {P_{k - 1}} - \frac{1}{\alpha } {K_k}{X_k}{P_{k - 1}} = \frac{1}{\alpha } \left( {I - {K_k}{X_k}} \right){P_{k - 1}} \end{aligned} \tag{15}$
于是，算法2可进一步的写为如下形式，我们称为算法3：

根据公式(14)更新模型增益 ${K_k} = {P_{k - 1}}X_k^{\rm{T}}{\left( {\alpha I + {X_k}{P_{k - 1}}X_k^{\rm{T}}} \right)^{ - 1}}$ ；
根据公式(15)更新 ${P_k} = \frac{1}{\alpha } \left( {I - {K_k}{X_k}} \right){P_{k - 1}}$ ；
更新回归系数 ${\theta_k} = {\theta_{k - 1}} + {K_k}\left( {{Y_k} - {X_k}{\theta_{k - 1}}} \right)$