最佳的最小二乘解

小裘HUST

于 2022-10-30 23:05:21 发布

阅读量1.1k

点赞数 1

分类专栏：日常调试记录文章标签：线性代数算法最小二乘法

本文链接：https://blog.csdn.net/qq_35787848/article/details/127606962

版权

日常调试记录专栏收录该内容

35 篇文章 12 订阅

订阅专栏

本文是关于最小二乘问题的一些总结。

问题引入

最小二乘法最常见于曲线拟合的问题。比如有一组样本点 $x_1, y_1)$ , $x_2, y_2)$ , $x_3, y_3)$ , …, $x_m, y_m)$ 。每个样本点的 $x$ 都是n-1维列向量。然后根据用户定义的模型可以列出m个方程组成的方程组来求解模型中的参数。
以 $\in { {\rm{C} }^3}$ 为例，每个样本是3维的数据，共5组样本数据，列出一次多项式方程组，求解n个参数 $a, b, c, d$ ：

$\left\{ \begin{array}{l} ax_{11} + bx_{12} + c{x_{13} } + d = {y_1}\\ ax_{21} + bx_{22} + c{x_{23} } + d = {y_2}\\ ax_{31} + bx_{32} + c{x_{33} } + d = {y_3}\\ ax_{41} + bx_{42} + c{x_{43} } + d = {y_4}\\ ax_{51} + bx_{52} + c{x_{53} } + d = {y_5} \end{array} \right.$

也可以采用更加复杂的模型，例如：

$\left\{ \begin{array}{l} a{e^{ {x_{11} } } } + \frac{b}{ { {x_{12} } } } + c\ln {x_{13} } + d = {y_1}\\ a{e^{ {x_{21} } } } + \frac{b}{ { {x_{22} } } } + c\ln {x_{23} } + d = {y_2}\\ a{e^{ {x_{31} } } } + \frac{b}{ { {x_{32} } } } + c\ln {x_{33} } + d = {y_3}\\ a{e^{ {x_{41} } } } + \frac{b}{ { {x_{42} } } } + c\ln {x_{43} } + d = {y_4}\\ a{e^{ {x_{51} } } } + \frac{b}{ { {x_{52} } } } + c\ln {x_{53} } + d = {y_5} \end{array} \right.$

求解的时候所有的样本点都是会代入方程组中的，所以只要待求的参数最后能组成线性的方程组就行。
在线性代数中我们学过线性方程组解的结构。

${\begin{bmatrix} {x_{11} }&{x_{12} }&{ {x_{13} } }&1\\ {x_{21} }&{x_{22} }&{ {x_{23} } }&1\\ {x_{31} }&{x_{32} }&{ {x_{33} } }&1\\ {x_{41} }&{x_{42} }&{ {x_{43} } }&1\\ {x_{51} }&{x_{52} }&{ {x_{53} } }&1 \end{bmatrix} } {\begin{bmatrix} a\\ b\\ c\\ d \end{bmatrix} } = A {\begin{bmatrix} a\\ b\\ c\\ d \end{bmatrix} } = {\begin{bmatrix} { {y_1} }\\ { {y_2} }\\ { {y_3} }\\ { {y_4} } \end{bmatrix} }$

可以把前面的第一个方程组写成矩阵的形式，系数用矩阵A表示，A的秩 $\rm rank(A)$ 如果小于n（n是参数的个数），那么就有无穷解； $\rm rank(A)=n$ ，则有唯一解； $\rm rank(A)>n$ 则无解。这和我们熟知的，要解n个变量，就需要n个方程是一个道理。
最小二乘法主要用在“无解”的情况，在实际应用中，采集大量样本数据后，往往是得不到唯一解的。但我们想要得到一个曲线能最好地描述这一批数据，最小二乘法就是能得到令估计误差的平方和最小的一种估计方法。
而最佳体现在哪里？一般很少会有人提到最佳的最小二乘解是因为在“无解”的情况下，最小二乘解是唯一的，而只有在“无穷解”的情况下才有“最佳”的说法。而在“无穷解”的情况下相当于是在用极少的样本估计模型的参数，这在实际应用中一般也是没有意义的，所以“最佳”这个概念基本没人提。

问题的数学描述

目标函数可以这样表示：

$\mathop {\arg \min }\limits_\omega {\left\| {X\omega - Y} \right\|_2^2}$

$\omega$ 是一个n维的列向量，是我们需要估计的参数。 $X$ 是一个 $m\times n$ 的矩阵，每一行对应一个样本数据，共m行，也就是说有m个方程； $Y$ 是每个样本的标签值组成的 $m\times 1$ 的列向量。
几何意义就是样本点与估计的曲线的偏差 $d y$ 越小越好，目标函数取的是误差向量的二范数，忽略了偏差的正负。
在这里插入图片描述

解析推导

我之前在关于CSK与KCF算法推导（二）中写了岭回归的推导，岭回归就是在最小二乘的基础上加上了正则项，保证了 $\omega$ 一定有解。这里的推导和岭回归几乎一致。
类似二次多项式求最小值的问题，目标函数对 $\omega$ 求偏导，令其偏导为零向量即可求出 $\omega$ 在什么情况下能令目标函数最小化。

$\frac{ {\partial \left\| {X\omega - Y} \right\|_2^2} }{ {\partial \omega } } = 0$

将目标函数展开，向量二范数的平方就是向量内积：

$\left\| {X\omega - Y} \right\|_2^2 = {\left( {X\omega - Y} \right)^T}\left( {X\omega - Y} \right) = {\omega ^T}{X^T}X\omega - {\omega ^T}{X^T}Y - {Y^T}X\omega + {Y^T}Y$

每一项分别对 $\omega$ 求偏导：

$\frac{ {\partial {\omega ^T}{X^T}X\omega } }{ {\partial \omega } } = {X^T}X\omega + {\left( { {\omega ^T}{X^T}X} \right)^T} = 2{X^T}X\omega$

$\frac{ {\partial {\omega ^T}{X^T}Y} }{ {\partial \omega } } = {X^T}Y$

$\frac{ {\partial {Y^T}X\omega } }{ {\partial \omega } } = \left( { {Y^T}X} \right) = {X^T}Y$

$\frac{ {\partial {Y^T}Y} }{ {\partial \omega } } = 0$

整合起来令偏导为零向量：

$2\left( { {X^T}X\omega - {X^T}Y} \right) = 0$

也就是：

${X^T}X\omega = {X^T}Y$

如果没有额外的条件的话是无法保证 $X^TX$ 可逆的，如果 $X^TX$ 可逆，那么：

$\omega = {\left( { {X^T}X} \right)^{ - 1} }{X^T}Y$

$X^TX$ 可逆也不难，只要 $X$ 是列满秩的就行。 $X$ 是 $m\times n$ 的矩阵，一般情况下样本个数m远大与待求的变量个数n时， $X$ 列满秩是很容易满足的。

从正交投影矩阵的角度推导

参考了华中科技大学出版社的《矩阵论》（第二版）教材，书中关于最佳的最小二乘解的内容得从M-P广义逆开始说起。求最佳的最小二乘解是M-P广义逆的一个应用，想要详细了解的小伙伴建议直接看书，我这里写的东西难免有些不严谨的地方，而且没法真正地把这个思路讲明白。书中的结论是更加一般化的，而且推导步骤也很严谨，前面的推导的结果是其中的一个特例。

M-P广义逆

书中介绍了M-P广义逆的一些性质，这里就不写了，主要提一下怎么计算M-P广义逆。任意矩阵 $\in { {\rm{C} }^{m \times n} }$ 都存在M-P广义逆 $A^+$ 。先对 $A$ 进行满秩分解，
$BC,\;B \in { {\rm{C} }^{m \times r} },\;C \in { {\rm{C} }^{r \times n} },\;{\mathop{\rm rank}\nolimits} (B) = {\mathop{\rm rank}\nolimits} (C) = r$
M-P广义逆就可以表示为，
${A^ + } = {C^H}{\left( {C{C^H} } \right)^{ - 1} }{\left( { {B^H}B} \right)^{ - 1} }{B^H}$
特别的，当 $A$ 为列满秩的矩阵时， $C=I_{r\times r}$ ，
${A^ + } = {\left( { {A^H}A} \right)^{ - 1} }{A^H}$

正交投影矩阵

正交投影矩阵 $P$ 满足： $P^2=P,\;P^H=P$ 。正交投影矩阵有什么用呢？假如 $\in { {\rm{C} }^{n \times n} }$ ，是一个正交投影矩阵，
$\in \rm C^{n\times 1}, v \in \rm C^{n\times 1}$
$u$ 经过 $P$ 变换以后可以得到一个 $R (P)$ 空间中的一个向量 $v$ ,
${\left\| {v - u} \right\|_2} \le \left\| {x - u} \right\|_2,\;\forall x \in R(P)$
向量 $v$ 与 $u$ 之间的欧式距离小于 $R (P)$ 空间中的任何向量 $x$
在这里插入图片描述
考察矩阵 $AA^+$ 和矩阵 $A^+A$ 可以发现它们都是正交投影矩阵。书中有证明 $R(AA^+)=R(A)$ ，这为我们带来了很大的方便。如果我们想把向量 $x$ 正交投影到 $R (A)$ 空间，只需要计算 $AA^+x$ 就行了。

回到问题

$\mathop {\arg \min }\limits_\omega {\left\| {X\omega - Y} \right\|_2^2}$

再回到原来的问题，我们想找的就是 $X\omega$ 如果能是 $Y$ 在 $R (X)$ 空间中的正交投影就好了，前面的结论就告诉了我们 $XX^+Y$ 就是 $Y$ 在 $R (X)$ 空间中的正交投影。那么自然，

$\omega = {X^ + }Y$

与前面的解析推导不一样的地方是，这里没有对 $X$ 的形式做限制。如果同样加上 $X$ 是列满秩的限制，那么可以得到与前面一样的结论。

$\omega = {\left( { {X^T}X} \right)^{ - 1} }{X^T}Y$

$\omega = {X^ + }Y$ 是一个更加一般的结论，它被称为“最佳的最小二乘解”。这个解不光满足最小二乘，而且这个解本身的二范数也是最小的，所以是所有最小二乘解中最佳的解。而“最佳”也只会在有无穷解的情况下体现，下面举个最简单的例子。

所谓“最佳”的举例

用样本点(1,2)拟合一条直线， $y = a x + b$ 。虽然用一个点去拟合一条直线听着有点离谱，但这就是体现最佳的最小二乘解所谓的“最佳”的地方。
${\begin{bmatrix} 1&1 \end{bmatrix} } {\begin{bmatrix} a\\ b \end{bmatrix} } = 2$

${\begin{bmatrix} 1&1 \end{bmatrix} },\;{X^ + } = {X^T}{\left( {X{X^T} } \right)^{ - 1} } = {\begin{bmatrix} {0.5}\\ {0.5} \end{bmatrix} }$
最佳的最小二乘解：
${\begin{bmatrix} a\\ b \end{bmatrix} } = {X^ + }Y = {\begin{bmatrix} 1\\ 1 \end{bmatrix} }$