最小二乘法理论、推导、算法

最新推荐文章于 2024-08-30 21:04:29 发布

AI人工智能科学

最新推荐文章于 2024-08-30 21:04:29 发布

阅读量2.7w

点赞数 24

分类专栏：数据科学--算法数据科学--数学基础机器学习文章标签：最小二乘法机器学习深度学习计算机视觉算法

本文链接：https://blog.csdn.net/lql0716/article/details/70165695

版权

数据科学--算法同时被 3 个专栏收录

8 篇文章 1 订阅

订阅专栏

机器学习

3 篇文章 0 订阅

订阅专栏

数据科学--数学基础

2 篇文章 0 订阅

订阅专栏

最小二乘法理论、推导、算法

author@jason_ql
http://blog.csdn.net/lql0716

1、引言

求最小二乘的实例：

假定 $x$ , $y$ 有如下数值：
y　|　1.00　|　0.90　|　0.90　|　0.81　|　0.60　|　0.56　|　0.35
x　|　3.60　|　3.70　|　3.80　|　3.90　|　4.00　|　4.10　|　4.20

解：将这些数值画图可以看出接近一条直线，故用 $y = ax + b$ 表示，故将上面的数值代入表达式有：

3.6 a + b - 1.00 = 0 3.7 a + b - 0.90 = 0 3.8 a + b - 0.90 = 0 3.9 a + b - 0.81 = 0 4.0 a + b - 0.60 = 0 4.1 a + b - 0.56 = 0 4.2 a + b - 0.35 = 0

$3.6a + b - 1.00 = 0 \\ 3.7a + b - 0.90 = 0 \\ 3.8a + b - 0.90 = 0 \\ 3.9a + b - 0.81 = 0 \\ 4.0a + b - 0.60 = 0 \\ 4.1a + b - 0.56 = 0 \\ 4.2a + b - 0.35 = 0 \\$

由于直线只有两个未知数 $a$ , $b$ ，理论上只需要两个方程就能求得，但是实际上是不可能的，因为所有点并没有真正的在同一条直线上，即不可能所有的数值都满足

a x + b - y ＝ 0

$ax + b - y＝0$ ，故只需找到一对儿

a $a$ 、

b $b$ ，使得误差平方和

\sum (a x i + b - y i) 2 = (a x 0 + b - y 0) 2 + (a x 1 + b - y 1) 2 + . . . . . . + (a x n + b - y n) 2

$\sum(ax_i + b - y_i)^2 =(ax_0 + b - y_0)^2 + (ax_1 + b - y_1)^2 + ...... + (ax_n + b - y_n)^2$ 最小即可。

误差的平方即二乘方，故成为最小二乘法。

2、最小二乘法理论（使得平方和最小）

2.1 数学理论推导

线性方程组

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ a 11 x 1 + a 12 x 2 + . . . + a 1 s x s - b 1 = 0, a 21 x 1 + a 22 x 2 + . . . + a 2 s x s - b 2 = 0, . . . . . . a n 1 x 1 + a n 2 x 2 + . . . + a n s x s - b n = 0, (1)

$\left\{ \begin{aligned} a_{11}x_1 + a_{12}x_2 + ... + a_{1s}x_s - b_1 = 0, \\ a_{21}x_1 + a_{22}x_2 + ... + a_{2s}x_s - b_2 = 0, \\ ...... \\ a_{n1}x_1 + a_{n2}x_2 + ... + a_{ns}x_s - b_n = 0, \end{aligned} \right.　\tag{1}$

该方程组可能无解，即任何一组 $x_1, x_2, ... , x_s$ （这里为系数）都可能使得

\sum i = 1 n (a i 1 x 1 + a i 2 x 2 + . . . + a i s x s - b i) 2 (2)

$\sum_{i=1}^{n} (a_{i1}x_1 + a_{i2}x_2 + ... + a_{is}x_s - b_i)^2 \tag{2}$

不等于零。所以找到一组 $x_1, x_2, ... , x_s$ 使得(2)式最小，称这样的解为最小二乘解，这种问题就叫最小二乘方问题。

对于（１）式，我们可以用矩阵来表示，
自变量矩阵 $\boldsymbol{A}$ :

A = ⎡ ⎣ ⎢ ⎢ ⎢ a 11 a 21 . a n 1 a 12 a 22 . a n 2 . . . . . . . . . . a 1 s a 2 s . a n s ⎤ ⎦ ⎥ ⎥ ⎥ (3)

$\boldsymbol{A}=\left[ \begin{matrix} a_{11} & a_{12} & ... & a_{1s} \\ a_{21} & a_{22} & ... & a_{2s} \\ . & . & . & . \\ a_{n1} & a_{n2} & ... & a_{ns} \end{matrix} \right] \tag{3}$

函数值 $\boldsymbol{B}$ :

B = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ b 1 b 2 . . . b n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ (4)

$\boldsymbol{B}=\left[ \begin{matrix} b_{1} \\ b_{2} \\ . \\ . \\ . \\ b_{n} \end{matrix} \right] \tag{4}$

系数 $\boldsymbol{X}$ :

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 1 x 2 . . . x s ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ (5)

$\boldsymbol{X}=\left[ \begin{matrix} x_{1} \\ x_{2} \\ . \\ . \\ . \\ x_{s} \end{matrix} \right] \tag{5}$

函数值 $\boldsymbol{Y}$ :

Y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \sum j = 1 s a 1 j x j \sum j = 1 s a 2 j x j . . . \sum j = 1 s a n j x j ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = A X (4)

$\boldsymbol{Y}=\left[ \begin{matrix} \sum_{j=1}^{s} a_{1j}x_j \\ \sum_{j=1}^{s} a_{2j}x_j \\ . \\ . \\ . \\ \sum_{j=1}^{s} a_{nj}x_j \end{matrix} \right] = \boldsymbol{AX} \tag{4}$

故（２）式等价于：

| Y - B | 2 = | A X - B | 2 = \sum i = 1 n (a i 1 x 1 + a i 2 x 2 + . . . + a i s x s - b i) 2

$|\boldsymbol{Y-B}|^2 = |\boldsymbol{AX-B}|^2 = \sum_{i=1}^{n} (a_{i1}x_1 + a_{i2}x_2 + ... + a_{is}x_s - b_i)^2$

也就是说，最小二乘法就是找 $x_1, x_2, ... , x_s$ 使得 $\boldsymbol{Y}$ 与 $\boldsymbol{B}$ 的距离最短。

对于（4）式 $\boldsymbol{Y}$ ，可以写为如下形式：

Y = x 1 ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ a 11 a 21 . . . a n 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ + x 2 ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ a 12 a 22 . . . a n 2 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ + . . . + x s ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ a 1 s a 2 s . . . a n s ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = x 1 α 1 + x 2 α 2 + . . . + x s α s (5)

$\boldsymbol{Y}=x_1\left[ \begin{matrix} a_{11} \\ a_{21} \\ . \\ . \\ . \\ a_{n1} \end{matrix} \right] + x_2\left[ \begin{matrix} a_{12} \\ a_{22} \\ . \\ . \\ . \\ a_{n2} \end{matrix} \right] + ... + x_s\left[ \begin{matrix} a_{1s} \\ a_{2s} \\ . \\ . \\ . \\ a_{ns} \end{matrix} \right] = x_1 \boldsymbol{\alpha}_1 + x_2 \boldsymbol{\alpha}_2 + ... + x_s\boldsymbol{\alpha}_s \tag{5}$

其中 $\boldsymbol{\alpha}_i$ 为对应的列向量，由 $\boldsymbol{\alpha}_i$ 生成的子空间为 $\boldsymbol{L}(\boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2, ... , \boldsymbol{\alpha}_s)$ ,那么 $\boldsymbol{Y}$ 就是 $\boldsymbol{L}(\boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2, ... , \boldsymbol{\alpha}_s)$ 中的向量，故最小二乘法问题可叙述成：

找 $\boldsymbol{X}$ 使得（2）式最小，就是在 $\boldsymbol{L}(\boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2, ... , \boldsymbol{\alpha}_s)$ 中找一向量 $Y$ 使得 $B$ 到它的距离比到子空间 $\boldsymbol{L}(\boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2, ... , \boldsymbol{\alpha}_s)$ 中其它向量的距离都短。

设 $\boldsymbol{Y} = \boldsymbol{AX} = x_1 \boldsymbol{\alpha}_1 + x_2 \boldsymbol{\alpha}_2 + ... + x_s\boldsymbol{\alpha}_s$ ，则

C = B - Y = B - A X

$\boldsymbol{C} = \boldsymbol{B} - \boldsymbol{Y} = \boldsymbol{B} - \boldsymbol{AX}$

必须垂直于子空间 $\boldsymbol{L}(\boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2, ... , \boldsymbol{\alpha}_s)$ ，故有

(C, α 1) = (C, α 2) = . . . = (C, α s) = 0

$(\boldsymbol{C}, \boldsymbol{\alpha}_1) = (\boldsymbol{C}, \boldsymbol{\alpha}_2) = ... = (\boldsymbol{C}, \boldsymbol{\alpha}_s) = 0$

由向量内积的定义可知：

α' 1 C = 0, α' 2 C = 0, . . ., α' s C = 0 (6)

$\boldsymbol{\alpha}_1^{'} C = 0, \boldsymbol{\alpha}_2^{'} C = 0, ... , \boldsymbol{\alpha}_s^{'} C = 0 \tag{6}$

向量的内积：

$\boldsymbol{\alpha} = (a_1, a_2, ..., a_n)$ ,

$\boldsymbol{\beta} = (b_1, b_2, ..., b_n)$ ,

则 $\boldsymbol{\alpha}$ 和 $\boldsymbol{\beta}$ 的内积为： $(\boldsymbol{\alpha}, \boldsymbol{\beta})=a_1b_1 + a_2b_2 + ... + a_nb_n$

由（6）式可得：

A' C = 0

$\boldsymbol{A^{'}C}=0$

即：

A' C = A' (B - Y) = A' (B - A X) = 0

$\boldsymbol{A^{'}C}=\boldsymbol{A^{'}(B-Y)}=\boldsymbol{A^{'}(B-AX)}=0$

从而有：

A' B - A' A X = 0

$\boldsymbol{A^{'}B-A^{'}AX}=0$

A' B = A' A X

$\boldsymbol{A^{'}B=A^{'}AX}$

X = (A' A) - 1 A' B

$\boldsymbol{X=(A^{'}A)^{-1}A^{'}B}$

其中 $\boldsymbol{|A^{'}A|} \neq 0$

2.2 常见形式

2.2.1 理论

根据2.1节，可以得出以下形式( $s+1 \leq n$ ):

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ a 1 x 11 + a 2 x 12 + . . . + a s x 1 s + b - y 1 = 0, a 1 x 21 + a 2 x 22 + . . . + a s x 2 s + b - y 2 = 0, . . . . . . a 1 x n 1 + a 2 x n 2 + . . . + a s x n s + b - y n = 0, (2.2.1)

$\left\{ \begin{aligned} a_1x_{11} + a_2x_{12} + ... + a_sx_{1s} + b - y_1= 0, \\ a_1x_{21} + a_2x_{22} + ... + a_sx_{2s} + b - y_2= 0, \\ ...... \\ a_1x_{n1} + a_2x_{n2} + ... + a_sx_{ns} + b - y_n= 0, \end{aligned} \right.　\tag{2.2.1}$

这里是常见的方程表示形式 $a_j$ 为系数， $b$ 为常数项, $x_{ij}$ 为自变量， $y_i$ 为函数值。一般我们解方程都是根据 $a_j$ 和 $b$ 求得 $y_i=a_1x_{i1} + a_2x_{i2} + ... + a_s x_{is} + b$ ，但在解决实际问题时，一般我们都是知道 $x_{ij}$ 和 $y_i$ ，需要反过来求解 $a_j$ 和 $b$ 。

根据（2.2.1）式，设：

X = ⎡ ⎣ ⎢ ⎢ ⎢ x 11 x 21 . x n 1 x 12 x 22 . x n 2 . . . . . . . . . . x 1 s x 2 s . x n s 1111 ⎤ ⎦ ⎥ ⎥ ⎥

$\boldsymbol{X}=\left[ \begin{matrix} x_{11} & x_{12} & ... & x_{1s} & 1\\ x_{21} & x_{22} & ... & x_{2s} & 1\\ . & . & . & . & 1\\ x_{n1} & x_{n2} & ... & x_{ns} & 1 \end{matrix} \right]$