RLS递归最小二乘法(Recursive Least Squares)

原创已于 2024-03-01 22:13:05 修改 · 1.7w 阅读

201 ·

CC 4.0 BY-SA版权

文章标签：

#最小二乘法 #人工智能 #递归最小二乘法

于 2022-07-17 20:58:17 首次发布

杂文专栏收录该内容

4 篇文章

订阅专栏

RLS递归最小二乘法(Recursive Least Squares)

感谢B站Up 凩子白的讲解视频, 大多数的RLS算法介绍都是从各种专业领域角度讲解的(比如滤波器等角度), 对于缺乏专业背景的同学入门较难, 本文希望单纯从数学角度出发，便于缺乏信号处理等领域背景知识的同学理解。本文主要是对以上提到的视频的文字化, 同时也加入了自己的一些理解, 也许有一些地方不是那么严谨, 但希望能帮助大家快速了解一下RLS算法的基本思想。

PRELIMINARIES

最小二乘法

对于样本数据对儿 $(\mathbf{x},y)$ , 其中输入数据向量 $\mathbf{x}=[x_{11},x_{12},...,x_{1m}]^T \in \mathbb{R}^m$ , 输出样本为 $y\in \mathbb{R}$ ; 使用参数为 $\mathbf{w}$ 的模型来拟合数据 $(\mathbf{x},y)$ 之间的真实映射关系; 认为模型 $\mathbf{w}$ 的输出为 $y$ 的估计值 $\hat{y}\in \mathbb{R}$ , 满足 $\hat{y} \sim f({\mathbf{w}};\mathbf{x})$ , 拟合模型满足如下形式
$\hat{y_1}=w_1x_{11}+w_2x_{12}+...w_mx_{1m}=\mathbf{x_1^T}\mathbf{{w}}\\ \hat{y_2}=\mathbf{x_2^T }\mathbf{{w}}\\ \vdots\\ \hat{y_n}=\mathbf{x_n^T }\mathbf{{w}} \tag{1}$
最小二乘法的思路, 就是希望近似模型参数 $\mathbf{{w}}$ 在这 $n$ 个样本输入数据 $X_{n\times m}=[\mathbf{x_1},\mathbf{x_2},...,\mathbf{x_n}]^T$ (以后简记为 $X$ )上得出的估计值 $\hat{\mathbf y}=[\hat{y_1},\hat{y_2},...,\hat{y_n}]^T$ 与ground truth 输出样本数据 $\mathbf y=[y_1,y_2,...,y_n]^T$ 之间的差值平方和最小,即
${\mathbf{w}} =\arg min \sum\limits_{i=1}^n (y_i-\hat{y_i})^2\\ = \arg min \sum\limits_{i=1}^n (y_i-\mathbf{x_i^T }\mathbf{{w}})^2\\ =\arg min \begin{Vmatrix} \mathbf{y}-X\mathbf{w} \end{Vmatrix}_2^2\\ =\arg min\ E(\mathbf{w}) \tag{2}$
误差 $E(\mathbf{w})$ 对参数 $\mathbf{w}$ 求梯度,
$\nabla_\mathbf{w} E =\nabla_\mathbf{w}\begin{Vmatrix} \mathbf{y}-X\mathbf{w} \end{Vmatrix}_2^2\\ =\nabla_\mathbf{w} \big[(\mathbf{y}-X\mathbf{w})^T(\mathbf{y}-X\mathbf{w})\big] \\ =2X^T(\mathbf{y}-X\mathbf{w}) \tag{3}$
令 $\nabla_\mathbf{w} E=0$ , 即可求出
$\mathbf{w}=X^{-1}\mathbf{y}=(X^TX)^{-1}X^T\mathbf{y} \tag{4}$
注意, 公式 ${3}$ 中的 $\mathbf y$ 是样本数据, 将 $X^{-1}$ 表述为 $X^TX)^{-1}X^T$ 的原因是矩阵 $X$ 不一定是 $n\times n$ 形状,因此不一定有逆矩阵, 而 $X^TX$ 的逆是存在的?

最小二乘法存在的问题（为什么需要递归最小二乘法）

当一次性给出所有样本集合 $(X,\mathbf{y})$ 时, 可以通过公式 ${4}$ 来直接计算出最优的拟合模型参数 $\mathbf{w}$ , 然而, 在实际应用中, 这种直接计算法并不常见, 主要是因为公式中求逆部分 $X^TX)^{-1}$ 的计算量大, 在样本数据量大时计算量更是明显增大; 另外, 现实生活中,往往出现样本数据可能也并不是一次性给出, 而是不断给出新的样本数据, 以一种数据流的形式给出样本数据, 例如传感器随时间不断读取信号等, 这种情况下利用公式 ${4}$ 直接计算最优模型参数 ${\mathbf{w}}$ 就需要每次进行直接计算, 也是不现实的.

因此, 为了利用最小误差平方和原则, 求解在大样本量, 或者数据流情况下的最优模型参数 ${\mathbf{w}}$ , 一种方法可以将大样本分成多批次(batch), 计算旧模型在新批次样本上的梯度, 不断进行梯度下降来进行迭代求解(也可以将数据流当做一个个batch来梯度更新); 另一种则是解析的方法, 就是这里提到的递归最小二乘解法(RLS).

本质上, 递归最小二乘法RLS和梯度下降、直接计算法一样, 都是为了求解满足最小误差平方和原则的最优模型参数 ${\mathbf{w}}$ , 只是在实现方式上有所不同.

递归最小二乘法

如之前提到的, RLS的主要应用场景, 是假设输入样本数据 $X$ 在不断添加新数据, 例如 $X=[\mathbf{x_1},\mathbf{x_2},...,\mathbf{x_n}]^T\rightarrow X'=[\mathbf{x_1},\mathbf{x_2},...,\mathbf{x_n} , \mathbf{x_{n+1}}]^T$ , $\mathbf y=[y_1,y_2,...,y_n]^T\rightarrow\mathbf y'=[y_1,y_2,...,y_n,y_{n+1}]^T$ , 即, 以一种数据流的形式给定样本; 这种情况下最优模型参数也将发生变化 $\mathbf{w}\rightarrow \mathbf{w}'$ , 那么如果使用公式 ${4}$ 就必须不断一次次计算逆矩阵 $X^TX)^{-1}$ , 由于计算逆矩阵非常耗时, 上述的计算方法显然是不实用的, 因此希望找到一种以公式 ${4}$ 为基础的递归求解新参数 $\mathbf{w'}$ 的方法, 使得求解出的新模型 $\mathbf{w'}$ 在当前最新的样本集 $(X',\mathbf{y'})$ 上仍然满足误差平方和最小原则.

在这里插入图片描述

递归最小二乘具体解法

假设, 我们手头已经有了一个在已有样本 $(X,\mathbf{y})$ 上满足最小误差平方和的模型参数 $\mathbf{w}$ （至于最初的模型参数的获取见下文）, 我们希望找到一种递推公式, 能够得到更新数据前后的参数 $\mathbf{w}\rightarrow \mathbf{w'}$ 之间的关系, 避免一次次重新计算逆矩阵 $X^TX)^{-1}$ , 就是RLS算法的主要动机.

对公式 ${4}$ 进行分析, 定义 $R\overset{\underset{def}{}}{=} X^TX, \mathbf{z} \overset{\underset{def}{}}{=} X^T\mathbf{{y}}$ ,则公式 ${4}$ 可改写为
$\mathbf{w}=R^{-1}\cdot \mathbf{z} \tag{5}$
在发生数据更新后, 新的权重矩阵记为 $\mathbf{w}'$ , 新数据矩阵为 $X^{'}$ 新矩阵 $R^{'}$ 公式 ${4}$ 可更新为
$\mathbf{w'}=R'^{-1}\cdot \mathbf{z'} \tag{6}$

递推求解矩阵 $R^{'}$

在更新数据之后, 公式 ${4}$ 求解新权重矩阵 $\mathbf{w}'$ 的主要计算量在于求逆部分 $R^{-1}$ , 因此先对矩阵 $R$ 进行计算处理, 根据分块矩阵计算,可以得到更新后矩阵 $R^{'}$ 与更新前矩阵 $R$ 之间的递推公式
${X'}^TX' = [X^T|\mathbf{x_{n+1}}] \begin{bmatrix} X\\ \hline {\mathbf{x_{n+1}}}^T \end{bmatrix} =X^TX+\mathbf{x_{n+1}}\mathbf{x_{n+1}}^T = R + \mathbf{x_{n+1}}\mathbf{x_{n+1}}^T \tag{7}$
在现实中, 新的数据往往比旧数据更有价值, 因此一般为公式 ${7}$ 添加遗忘因子 $\lambda \leq 1$ , 这样越旧的数据在迭代过程中比重就越小, 即
$\lambda R+\mathbf{x_{n+1}}\mathbf{x_{n+1}}^T \tag{8}$

递推求解逆矩阵 $R'^{-1}$

公式 ${8}$ 表明了矩阵 $R$ 与 $R^{'}$ 的迭代关系, 但是并不包含对求逆过程的处理, 我们更希望, 能够获得矩阵 $R^{-1}$ 与 ${R'}^{-1}$ 之间的递推关系. 在计算地推关系前, 需要引入如下引理

Theorem 1 : 如果矩阵 $A$ 可以表示为如下形式
$B^{-1} + CD^{-1}C^T \tag{9}$
则逆矩阵 $A^{-1}$ 可以表示
$A^{-1}=B-BC(D+C^TBC)^{-1}C^TB \tag{10}$
将公式 ${9}$ , ${10}$ 相乘即可证明该引理

对比公式 ${8}$ , ${9}$ 令 $A\overset{\underset{def}{}}{=} R', B\overset{\underset{def}{}}{=}(\lambda R)^{-1}, C\overset{\underset{def}{}}{=} \mathbf{x_{n+1}},D \overset{\underset{def}{}}{=} 1$ 则根据公式 ${10}$ 计算得到 ${R'}^{-1}$ 为
${R'}^{-1} =(\lambda R)^{-1} - (\lambda R)^{-1}\mathbf{x_{n+1}}\big(1+\mathbf{x_{n+1}}^T(\lambda R)^{-1}\mathbf{x_{n+1}}\big)^{-1}\mathbf{x_{n+1}}^T(\lambda R)^{-1}\\ = \frac{1}{\lambda}R^{-1} - \frac{1}{\lambda}R^{-1}\mathbf{x_{n+1}}\frac{1}{1+\frac{1}{\lambda}\mathbf{x_{n+1}}^TR^{-1}\mathbf{x_{n+1}}}\mathbf{x_{n+1}}^T\frac{1}{\lambda}R^{-1}\\ =\frac{1}{\lambda}R^{-1} - \frac{\frac{1}{\lambda^2}R^{-1}\mathbf{x_{n+1}}\mathbf{x_{n+1}}^TR^{-1}}{1+\frac{1}{\lambda}\mathbf{x_{n+1}}^TR^{-1}\mathbf{x_{n+1}}}\\ =\frac{1}{\lambda}R^{-1} - \frac{\frac{1}{\lambda}R^{-1}\mathbf{x_{n+1}}\mathbf{x_{n+1}}^TR^{-1}}{\lambda+\mathbf{x_{n+1}}^TR^{-1}\mathbf{x_{n+1}}}\\ =\frac{1}{\lambda}R^{-1} - \frac{1}{\lambda}\frac{R^{-1}\mathbf{x_{n+1}}}{\lambda+\mathbf{x_{n+1}}^TR^{-1}\mathbf{x_{n+1}}}\mathbf{x_{n+1}}^TR^{-1} \tag{11}$
公式 ${11}$ 计算新的逆矩阵 $R'^{-1}$ 的过程仅仅需要之前的旧的逆矩阵 $R^{-1}$ 以及新添加的数据向量 $\mathbf{x_{n+1}}$ 即可, 避免了直接求逆, 因此计算复杂度比直接求逆要小很多.

对公式 ${11}$ 作进一步简化, 令 $P'\overset{\underset{def}{}}{=} R'^{-1},P\overset{\underset{def}{}}{=} R^{-1}$ , 定义增益向量 $k\overset{\underset{def}{}}{=} \frac{R^{-1}\mathbf{x_{n+1}}}{\lambda+\mathbf{x_{n+1}}^TR^{-1}\mathbf{x_{n+1}}}$ 可转变为
$\frac{1}{\lambda}P - \frac{1}{\lambda}k\cdot \mathbf{x_{n+1}}^TP \tag{12}$
需要指出的是, 对公式 ${12}$ 两侧都右乘向量 $\mathbf{x}_{n+1}$ 恰好满足如下关系
$P'\mathbf{x}_{n+1} = \frac{1}{\lambda}P\mathbf{x}_{n+1} -\frac{\frac{1}{\lambda} P\mathbf{x_{n+1}}\mathbf{x_{n+1}}^TP\mathbf{x_{n+1}}}{\lambda+\mathbf{x_{n+1}}^T P\mathbf{x_{n+1}}}\\ =\frac{P\mathbf{x_{n+1}}}{\lambda+\mathbf{x_{n+1}}^T P\mathbf{x_{n+1}}}\\ =k \tag{13}$
这样, 根据公式 ${12}$ 就得到了旧逆矩阵 $P$ 与更新后逆矩阵 $P^{'}$ 之间的递推关系; 重新表示公式 ${6}$ 为
$\mathbf{w'}=P'\cdot \mathbf{z'} \tag{14}$

递推求 $\mathbf{z'}$

对公式 ${6}$ 中的向量 $\mathbf{z'}$ 同样利用分块矩阵计算
$\mathbf{z'} = {X'}^T\mathbf{{y'}} = [X^T|\mathbf{x_{n+1}}] \begin{bmatrix} \mathbf{{y}} \\ \hline {y}_{n+1} \end{bmatrix} =X^T\mathbf{{y}}+\mathbf{x_{n+1}}{y}_{n+1} = \mathbf{z}+\mathbf{x_{n+1}}{y}_{n+1} \tag{15}$
添加遗忘因子 $\lambda\leq 1$ ,得到递推公式
$\mathbf{z'} =\lambda\mathbf{z}+\mathbf{x_{n+1}}{y}_{n+1} \tag{16}$

递推求 $\mathbf{w'}$

结合公式 ${12}$ , ${13}$ , ${14}$ , ${16}$ ,进行多步推导可以得到
$\mathbf{w'} =P'\cdot \mathbf{z'}\\ =P'[\lambda\mathbf{z}+\mathbf{x_{n+1}}{y}_{n+1}] \\ =\lambda P'\mathbf{z}+P'\mathbf{x_{n+1}}{y}_{n+1}\\ =\lambda \bigg[\frac{1}{\lambda}P - \frac{1}{\lambda}k\cdot\mathbf{x_{n+1}}^T P \bigg]\mathbf{z}+ P'\mathbf{x_{n+1}}{y}_{n+1} \\ =P\mathbf{z} - k\cdot \mathbf{x_{n+1}}^T P\mathbf{z} + P'\mathbf{x_{n+1}}{y}_{n+1} \\ =P\mathbf{z} - k\cdot\mathbf{x_{n+1}}^T P\mathbf{z} + k\cdot {y}_{n+1} \\ =\mathbf{w}-k(\mathbf{x_{n+1}}^T\mathbf{w}-{y}_{n+1}) \tag{17}$
注意其中, $\mathbf{x_{n+1}}^T\mathbf{w}-{y}_{n+1}$ 项中, 模型参数 $\mathbf{w}$ 是旧模型参数,如果定义 $e\overset{\underset{def}{}}{=}\mathbf{x_{n+1}}^T\mathbf{w}-{y}_{n+1}$ 则公式 ${17}$ 可变形为

$\mathbf{w'}=\mathbf{w}-k\cdot e \tag{18}$
这就是RLS的最终计算目标.

关于初始化

RLS主要描述的是一种推理关系, 不断地在原来的旧最优模型参数上进行迭代得到最新模型参数; 那么最初进行迭代时, 需要一个初始的模型参数, 这个模型参数最好是满足最小平方和误差原则; 公式(5) 通过以上介绍, 可以改写为
$\mathbf{w} = P\cdot \mathbf{z} \tag{19}$
其中, $\mathbf{z} \overset{\underset{def}{}}{=} X^T\mathbf{{y}}$ 可通过已有样本计算得出, 初始的 $P$ 一般取
$P=k\cdot I \tag{20}$
同时, 初始 $k$ 取一个较大的数（保证 $P$ 不会在递归过程中减小为负).