MIT18.06课程笔记16：最小二乘法，线性回归

最新推荐文章于 2021-08-26 20:22:03 发布

silent56_th

最新推荐文章于 2021-08-26 20:22:03 发布

阅读量1.4k

点赞数

分类专栏： mit18-06 MIT18.06线性代数课程笔记文章标签：线性代数矩阵最小二乘法线性回归投影转换

本文链接：https://blog.csdn.net/silent56_th/article/details/71437224

版权

mit18-06 同时被 2 个专栏收录

23 篇文章 2 订阅

订阅专栏

MIT18.06线性代数课程笔记

23 篇文章 14 订阅

订阅专栏

课程简介

18.06是Gilbert Strang教授在MIT开的线性代数公开课，课程视频以及相关资料请见https://ocw.mit.edu/courses/mathematics/18-06-linear-algebra-spring-2010/index.htm。
自己思考的部分使用斜体表示。

课程笔记

关于投射矩阵的内容请参考MIT18.06课程笔记15：Projection Matrix投射矩阵。此部分是投射矩阵的具体应用。

1. 线性回归问题简介

简单叙述：给定一系列的数据点（例如{ $(x_1,y_1),(x_2,y_2)...$ }，其中x表示特征向量，y表示目标值)，求取一个线性函数（例如一维直线就是 $y=cx+d$ ）拟合数据点，即使得函数值的误差的平方和最小。
具体到一维情况就是最小二乘法：
数据集是{ $(x_1,y_1),(x_2,y_2)...(x_m,y_m)$ }。
线性函数为 $y = cx + d$ 。
求 $argmin_{c,d}((cx_1+d-y_1)^2+(cx_2+d-y_2)^2+...+(cx_m+d-y_m)^2)$ 。

2. 换个角度看问题

最后需要最小化的目标函数其实是误差的平方和，此目标等效于最小化误差的距离（平方和开方）。
具体地设

e = [e 1, e 2, . . ., e m] T e i = c x i + d - y i, \forall 0 < i \leq m

$\begin{equation} e = [e_1,e_2,...,e_m]^T \\ e_i = cx_i+d-y_i ,\forall 0 < i \le m \end{equation}$
则目标函数为

argminc,d(eTe) $argmin_{c,d}(e^Te)$ ，等价于

argminc,d||e|| $argmin_{c,d}||e||$ 。
进一步，如果设

A = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ x 1 x 2 . . . x m 121 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥, b = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ y 1 y 2 . . . y m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$\begin{equation} A = \left[ \begin{matrix} x_1 & 1 \\ x_2 & 2\\ ... \\ x_m & 1\\ \end{matrix}\right], b = \left[ \begin{matrix} y_1 \\ y_2 \\ ... \\ y_m\\ \end{matrix}\right] \end{equation}$
则有

e = A [c d] - b

$\begin{equation} e = A\left[ \begin{matrix} c \\ d \end{matrix} \right] - b \end{equation}$
目标则为

a r g m i n c, d | | A [c d] - b | |

$\begin{equation} argmin_{c,d}||A\left[ \begin{matrix} c \\ d \end{matrix} \right] - b|| \end{equation}$
上诉公式都是非常直观的，就不多做介绍。
经过上诉转换之后，就可以把投射矩阵应用进来了。具体的，最小化

||e|| $||e||$ ，其实就是要找到

b̂ ∈C(A) $\hat{b}\in C(A)$ ，使得

||b̂ −b|| $||\hat{b}-b||$ 最小。（C(A)是A的column space，具体定义请见 MIT18.06课程笔记15：Projection Matrix投射矩阵）。而且这里的问题更简单，就只需要求

x=[c,d]T $x = [c,d]^T$ 即可（不需要求取投射后的向量

b̂ $\hat{b}$ 了）。
使用投射矩阵中的公式

[c, d] T = x = (A T A) - 1 A b

$\begin{equation} [c,d]^T = x = (A^TA)^{-1}Ab \end{equation}$

3. $A^TA$ 的可逆性

我自己的思考：
1. 对于任意矩阵 $A,B$ ，有 $range(A*B)\le range(A)$ , $range(A*B)\le range(B)$ 。因为新生成的矩阵的每一列都在A的column space里面（例如 $A*B$ 的第一列就是A与B的第一列相乘的结果。同样因为 $(A*B)^T=B^T*A^T$ ，所以新生成矩阵的每一行都在 $B^T$ 的column space里面。
2. $range(A*B)$ 可以小于 $min\{range(A),range(B)\}$ 。例如A的column不是线性无关的，那么可以通过两种不同的方式生成同一个向量。那么有 $range(B)=2$ , $range(A) > 2$ , 而 $range(A*B) = 1$ 。

3.1. 命题

$A$ 是column independent的 ⇒ $A^TA$ 是可逆的。

3.2. 反证法

$A^TA$ 是不可逆的 <=> $\exists x \neq 0, A^TAx=0$ ，
两边同时乘以 $x^T$ ，则有
$\exists x \neq 0, x^TA^TAx = (Ax)^T(Ax) = 0$ ,
进而 $\exists x \neq 0, Ax = 0$ 。而已知A是column independent的，所以不存在x使得 $Ax=0$ 。从而假设不成立。
从几何的角度也知假设不成立， $Ax$ 位于A的column space内，而 $A^TAx=0$ 则是再说 $Ax$ 在 $A^T$ 的null space里面。具体地，就是说几个线性无关基向量的线性组合要和每个基向量都垂直。而满足这种情况的只有 $Ax=0$ 。

4. 线性代数求导的角度

对于2中转换为矩阵相乘的问题表述形式，可以通过对其求导求解。两个方法角度不同，结果相同。
具体地，目标是

a r g m i n c, d e T e = a r g m i n c, d (A x - b) T (A x - b) e r r o r = (A x - b) T (A x - b)

$\begin{equation} argmin_{c,d} e^Te = \\ argmin_{c,d} (Ax-b)^T(Ax-b)\\ error = (Ax-b)^T(Ax-b) \end{equation}$
$error$ 对 $x$ 求导，可得 $A^T*2*(Ax-b) = 0$ , 进而 $x = (A^TA)^{-1}Ab$ 。