总体最小二乘法(TLS)

最新推荐文章于 2023-12-05 15:42:41 发布

Nightmare004

最新推荐文章于 2023-12-05 15:42:41 发布

阅读量2.5k

点赞数 2

分类专栏：数学文章标签：最小二乘法机器学习算法

本文链接：https://blog.csdn.net/qq_39942341/article/details/126436980

版权

数学专栏收录该内容

142 篇文章 17 订阅

订阅专栏

考虑线性方程组 $\mathbf{Ax}=\mathbf{b}$
最小二乘法只考虑误差来自 $\mathbf{b}$ ,但是实际上误差也有可能来自 $\mathbf{A}$
总体最小二乘法(Total least squares, TLS)就考虑了这一点

KKT

$T L S$ 问题
$\begin{array}{ll} \min\limits_{\mathbf{E}, \mathbf{w}, \mathbf{x}} & \|\mathbf{E}\|_{F}^{2}+\|\mathbf{w}\|^{2} \\ \text { s.t. } & (\mathbf{A}+\mathbf{E}) \mathbf{x}=\mathbf{b}+\mathbf{w} \\ & \mathbf{E} \in \mathbb{R}^{m \times n}, \mathbf{w} \in \mathbb{R}^{m} \end{array}$
因为 $F$ 范数是非凸的，所以考虑用KKT条件,先固定 $\mathbf{x}$ ,得到 $T L S^{'}$ 问题
$\begin{array}{ll} \min\limits_{\mathbf{E}, \mathbf{w}} & \|\mathbf{E}\|_{F}^{2}+\|\mathbf{w}\|^{2} \\ \text { s.t. } & (\mathbf{A}+\mathbf{E}) \mathbf{x}=\mathbf{b}+\mathbf{w} \end{array}$
拉格朗日函数
$L\left(\mathbf{E},\mathbf{w},\mathbf{\lambda}\right)= \|\mathbf{E}\|_{F}^{2}+\|\mathbf{w}\|^{2}+2\mathbf{\lambda}^T\left((\mathbf{A}+\mathbf{E}) \mathbf{x}-\mathbf{b}-\mathbf{w}\right)$
KKT条件
$\begin{cases} \nabla_{\mathbf{E}}L=2\mathbf{E}+2\mathbf{\lambda}\mathbf{x}^T=0\\ \nabla_{\mathbf{w}}L=2\mathbf{w}-2\mathbf{\lambda}=0\\ (\mathbf{A}+\mathbf{E}) \mathbf{x}=\mathbf{b}+\mathbf{w} \end{cases}$
可以得出 $\mathbf{\lambda}=\mathbf{w}$
于是 $\mathbf{E}=-\mathbf{\lambda}\mathbf{x}^T=-\mathbf{w}\mathbf{x}^T$
代入最后一个条件 $\mathbf{w}=\frac{A \mathbf{x}-\mathbf{b}}{\|\mathbf{x}\|^{2}+1}\\ \mathbf{E}=-\frac{(\mathbf{A x}-\mathbf{b}) \mathbf{x}^{T}}{\|\mathbf{x}\|^{2}+1}$
代回到 $T L S$ 问题中
$\min _{\mathbf{x} \in \mathbb{R}^{n}} \frac{\|\mathbf{A x}-\mathbf{b}\|^{2}}{\|\mathbf{x}\|^{2}+1}$

$\mathbf{x}$ 是 $T L S^{'}$ 问题的最优解当且仅当 $\left(\mathbf{x},\mathbf{E},\mathbf{w}\right)$ 是 $T L S$ 问题的最优解，其中 $\mathbf{E}=-\frac{(\mathbf{A x}-\mathbf{b}) \mathbf{x}^{T}}{\|\mathbf{x}\|^{2}+1},\mathbf{w}=\frac{A \mathbf{x}-\mathbf{b}}{\|\mathbf{x}\|^{2}+1}$

虽然现在的问题比之前简单，但是依然是非凸的
问题等价于
$\begin{array}{ll} \min \limits_{\mathbf{x} \in \mathbb{R}^{n}} &\frac{\|\mathbf{A x}-t\mathbf{b}\|^{2}}{\|\mathbf{x}\|^{2}+t} \\ \text { s.t. } &t=1 \end{array}$
令 $\mathbf{y}=\begin{pmatrix}\mathbf{x}\\t\\\end{pmatrix}$
$f^*=\min\limits_{\mathbf{y}\in\mathbb{R}^{n+1}\atop y_{n+1}=1}\frac{\mathbf{y}^T\mathbf{B}\mathbf{y}}{\|\mathbf{y}\|^2}$
其中
$\mathbf{B}=\begin{pmatrix} \mathbf{A}^T\mathbf{A}&-\mathbf{A}^T\mathbf{b}\\ -\mathbf{b}^T\mathbf{A}&\|\mathbf{b}\|^2 \end{pmatrix}$
去掉约束
$g^*=\min\limits_{\mathbf{y}\in\mathbb{R}^{n+1}\atop \mathbf{y}\neq \mathbf{0}}\frac{\mathbf{y}^T\mathbf{B}\mathbf{y}}{\|\mathbf{y}\|^2}$
这是瑞利商问题 $g^*=\lambda_{min}\left(\mathbf{B}\right)$

如果 $\mathbf{y}^*$ 是 $g$ 的最优解，且 $y_{n+1}=\neq 0$ ,则 $\tilde{\mathbf{y}}=\frac{1}{y_{n+1}^{*}}\mathbf{y}^*$ 也是 $f$ 的最优解
证明：
显然 $f^*\ge g^*$
设 $\tilde{\mathbf{y}}$ 是 $f$ 的最优解( $\tilde{y}_{n+1}=1$ )
$\frac{\tilde{\mathbf{y}}^T\mathbf{B}\tilde{\mathbf{y}}}{\|\tilde{\mathbf{y}}\|^2}=\frac{\frac{1}{\left(y_{n+1}^{*}\right)^2}\left(\mathbf{y}^*\right)^T\mathbf{B}\mathbf{y}^*}{\frac{1}{\left(y_{n+1}^{*}\right)^2}\|\mathbf{y}^*\|^2}=\frac{\left(\mathbf{y}^*\right)^T\mathbf{B}\mathbf{y}^*}{\|\mathbf{y}^*\|^2}$
$\tilde{\mathbf{y}}$ 是 $f$ 的最优解，也是 $g$ 的最优解

接下来就是怎么找一个 $y_{n+1}\neq 0$ 的解了

假设 $\lambda_{min}\left(\mathbf{B}\right)<\lambda_{min}\left(\mathbf{A}^T\mathbf{A}\right)$
则 $T L S^{'}$ 问题的最优解为 $\frac{1}{y_{n+1}}\mathbf{v}$ ,其中 $\mathbf{y}=\begin{pmatrix} \mathbf{v}\\ y_{n+1}\\ \end{pmatrix}$ 是 $\mathbf{B}$ 的最小特征值对应的特征向量

证明：设 $\mathbf{y}^*$ 是 $g$ 的最优解
假设 $y_{n+1}^*=0$ ，则
$\lambda_{min}\left(\mathbf{B}\right)=\frac{\left(\mathbf{y}^*\right)^T\mathbf{B}\mathbf{y}^*}{\|\mathbf{y}^*\|^2}=\frac{\mathbf{v}^T\mathbf{A}^T\mathbf{A}\mathbf{v}}{\|\mathbf{v}\|^2}\ge\lambda\left(\mathbf{A}^T\mathbf{A}\right)$
矛盾

引理1

设 $\mathbf{A}$ 是 $n\times n$ 对称矩阵，特征值为 $\alpha_1\ge\cdots\ge \alpha_n$
设 $\mathbf{B}$ 为 $\mathbf{A}$ 删掉第 $k$ 行和第 $k$ 列后的矩阵，特征值为 $\beta_1\ge \cdots \ge \beta_{n-1}$
于是
$\alpha_1\ge \beta_1\ge \cdots \ge\beta_{n-1}\ge \alpha_n$

证明：似乎要用Courant-Fischer Minmax Theorem,具体没找到

引理2

设
$\hat{\mathbf{A}}=\left(\mathbf{A},\mathbf{u}\right)\in\mathbb{R}^{m\times n},\quad m\ge n$
则奇异值
$\hat{\sigma}_1\ge \sigma_1\ge\hat{\sigma}_2\ge\cdots\ge \hat{\sigma}_{n-1}\ge \sigma_{n-1}\ge \hat{\sigma}_n$
证明：
$\hat{\mathbf{A}}^T\hat{\mathbf{A}}=\begin{pmatrix} \mathbf{A}^T\mathbf{A}&\mathbf{A}^T\mathbf{u}\\ \mathbf{u}^T\mathbf{A}&\mathbf{u}^T\mathbf{u} \end{pmatrix}$
删掉最后一行最后一列，然后代入引理1，就成立了

SVD

当 $\operatorname{rank}\left(\tilde{\mathbf{A}}+\tilde{\mathbf{E}}\right)<n+1$ 时有解

（1）当 $\operatorname{rank}\left(\mathbf{A}\right)<n+1$

$\tilde{\mathbf{E}}=\mathbf{0}$
（2）当 $\operatorname{rank}\left(\mathbf{A}\right)=n+1$
且 $\tilde{\mathbf{A}}$ 的奇异值 $\sigma_1\left(\tilde{\mathbf{A}}\right)\ge \sigma_2\left(\tilde{\mathbf{A}}\right)\ge\cdots\ge \sigma_{n}\left(\tilde{\mathbf{A}}\right)> \sigma_{n+1}\left(\tilde{\mathbf{A}}\right)>0$
设 $\tilde{\mathbf{A}}$ 的奇异值分解 $\tilde{\mathbf{A}}=\sum_{i=1}^{n+1}\sigma_i\mathbf{u}_i\mathbf{v}_i^T$
根据Eckart-Young Theorem,令
$\tilde{\mathbf{E}}=-\sigma_{n+1}\mathbf{u}_{n+1}\mathbf{v}_{n+1}^T$
$\left(\tilde{\mathbf{A}}+\tilde{\mathbf{E}}\right)\mathbf{y}=\mathbf{0}\Rightarrow \mathbf{y}=k\mathbf{v}_{n+1}$
$\mathbf{x}=-\frac{1}{v_{n+1,n+1}}\begin{pmatrix} v_{1,n+1}\\ \vdots\\ v_{n,n+1} \end{pmatrix}$
（3）当 $\operatorname{rank}\left(\mathbf{A}\right)=n+1$
且 $\tilde{\mathbf{A}}$ 的奇异值 $\sigma_1\left(\tilde{\mathbf{A}}\right)\ge \sigma_2\left(\tilde{\mathbf{A}}\right)\ge\cdots\ge \sigma_{r}\left(\tilde{\mathbf{A}}\right)> \sigma_{r+1}\left(\tilde{\mathbf{A}}\right)=\cdots= \sigma_{n+1}\left(\tilde{\mathbf{A}}\right)>0$