数学之路(3)-机器学习(3)-机器学习算法-最小二乘法与回归[1]

最新推荐文章于 2024-01-08 01:26:37 发布

麦好

最新推荐文章于 2024-01-08 01:26:37 发布

阅读量2.4k

点赞数

分类专栏： AI与机器学习机器学习实践指南文章标签：回归机器学习

本文链接：https://blog.csdn.net/myhaspl/article/details/9315371

版权

机器学习实践指南同时被 2 个专栏收录

217 篇文章 79 订阅

订阅专栏

AI与机器学习

106 篇文章 7 订阅

订阅专栏

一、范数

被选择的参数，应该使算出的函数曲线与观测值之差的平方和最小。用函数表示为：

$\min_{\vec{x}} { \sum_{i=1}^{n}(y_m - y_i)^2} .$

用欧几里得度量表达为：

$\min_{ \vec{x} } \| \vec{y}_{m} ( \vec{x} ) - \vec{y} \|_{2} \ .$

1-范数：是指向量（矩阵）里面非零元素的个数。类似于求棋盘上两个点间的沿方

格边缘的距离。
              ||x||1 = sum（abs(xi)）；
2-范数（或Euclid范数）：是指空间上两个向量矩阵的直线距离。类似于求棋盘上两点见的直线距离   （无需只沿方格边缘）。
               ||x||2 = sqrt(sum(xi.^2))；
∞－范数(或最大值范数)：顾名思义，求出向量矩阵中其中模最大的向量。

||x||∞ = max(abs(xi))；

矩阵范数：矩阵A的2范数就是 A的转置乘以A矩阵特征根最大值的开根号；

函数范数：函数f(x)的2范数是x在区间（a,b）上f(x)的平方的积分再开根号。

二、简单线性回归

被选择的参数，应该使算出的函数曲线与观测值之差的平方和最小。用函数表示为：

$\min_{\vec{x}} { \sum_{i=1}^{n}(y_m - y_i)^2} .$

用欧几里得度量表达为：

$\min_{ \vec{x} } \| \vec{y}_{m} ( \vec{x} ) - \vec{y} \|_{2} \ .$

线性函数模型。最简单的线性式是 $y = x_0 + x_1 t$ ，写成行列式，为

$\min_{x_0,x_1}\left\|\begin{pmatrix}1 & t_1 \\ \vdots & \vdots \\ 1 & t_n \end{pmatrix} \begin{pmatrix} x_0\\ x_1\end{pmatrix} - \begin{pmatrix} y_1 \\ \vdots \\ y_{n}\end{pmatrix}\right\|_{2} = \min_x\|Ax-b\|_2.$

直接给出该式的参数解：

$x_1 = \frac{\sum_{i=1}^n t_iy_i - n \cdot \bar t \bar y}{\sum_{i=1}^n t_i^2- n \cdot (\bar t)^2}$ 和 $x_0 = \bar y - x_1 \bar t$

其中 $\bar t = \frac{1}{n} \sum_{i=1}^n t_i$ ，为t值的算术平均值。也可解得如下形式：

$x_1 = \frac{\sum_{i=1}^n (t_i - \bar t)(y_i - \bar y)}{\sum_{i=1}^n (t_i - \bar t)^2}$

简单线性模型 y = x₀ + x₁t 的例子

随机选定10艘战舰，并分析它们的长度与宽度，寻找它们长度与宽度之间的关系。由下面的描点图可以直观地看出，一艘战舰的长度（t）与宽度（y）基本呈线性关系。散点图如下：

以下图表列出了各战舰的数据，随后步骤是采用最小二乘法确定两变量间的线性关系。

i	t_i	y_i	t_i*	y_i*	t_iy_i	t_it_i	y_iy_i
编号	长度 (m)	宽度 (m)	t_i - t	y_i - y
1	208	21.6	40.2	3.19	128.238	1616.04	10.1761
2	152	15.5	-15.8	-2.91	45.978	249.64	8.4681
3	113	10.4	-54.8	-8.01	438.948	3003.04	64.1601
4	227	31.0	59.2	12.59	745.328	3504.64	158.5081
5	137	13.0	-30.8	-5.41	166.628	948.64	29.2681
6	238	32.4	70.2	13.99	982.098	4928.04	195.7201
7	178	19.0	10.2	0.59	6.018	104.04	0.3481
8	104	10.4	-63.8	-8.01	511.038	4070.44	64.1601
9	191	19.0	23.2	0.59	13.688	538.24	0.3481
10	130	11.8	-37.8	-6.61	249.858	1428.84	43.6921
总和（Σ）	1678	184.1	0.0	0.00	3287.820	20391.60	574.8490

仿照上面给出的例子

$\bar t = \frac {\sum_{i=1}^n t_i}{n} = \frac {1678}{10} = 167{.}8$ 并得到相应的 $\bar y = 18{.}41$ .

然后确定x₁

$x_1 = \frac{\sum_{i=1}^n (t_i- \bar {t})(y_i - \bar y)}{\sum_{i=1}^n (t_i- \bar t)^2}$

$= \frac{3287{.}820} {20391{.}60} = 0{.}1612 \;,$

可以看出，战舰的长度每变化1m，相对应的宽度便要变化16cm。并由下式得到常数项x₀：

$x_0 = \bar y - x_1 \bar t = 18{.}41 - 0{.}1612 \cdot 167{.}8 = -8{.}6394\;,$

三、一般线性情况

含有更多不相关模型变量 $t_1, ..., t_q$ ，可如组成线性函数的形式

$y(t_1,\dots,t_q;x_0, x_1, \dots, x_q )= x_0 + x_1 t_1 + \cdots + x_q t_q$

即线性方程组

$\begin{matrix}x_0 + x_1 t_{11} + \cdots + x_j t_{1j}+ \cdots +x_q t_{1q} = y_1\\x_0 + x_1 t_{21} + \cdots + x_j t_{2j}+ \cdots +x_q t_{2q} = y_2\\\vdots \\x_0 + x_1 t_{i1} + \cdots + x_j t_{ij}+ \cdots +x_q t_{iq}= y_i\\\vdots\\x_0 + x_1 t_{n1} + \cdots + x_j t_{nj}+ \cdots +x_q t_{nq}= y_n\end{matrix}$

通常人们将t_ij记作数据矩阵 A，参数x_j记做参数矢量x，观测值y_i记作b，则线性方程组又可写成：

$\begin{pmatrix}1 & t_{11} & \cdots & t_{1j} \cdots & t_{1q}\\1 & t_{21} & \cdots & t_{2j} \cdots & t_{2q}\\\vdots \\1 & t_{i1} & \cdots & t_{ij} \cdots & t_{iq}\\\vdots\\1 & t_{n1} & \cdots & t_{nj} \cdots & t_{nq}\end{pmatrix}\cdot\begin{pmatrix}x_0\\x_1\\x_2\\\vdots \\x_j\\\vdots\\x_q\end{pmatrix}=\begin{pmatrix}y_1\\y_2\\\vdots \\y_i\\\vdots\\y_n\end{pmatrix}$ 即 $Ax = b$

上述方程运用最小二乘法导出为线性平差计算的形式为：

$\min_x\|Ax-b\|_2$ 。

最小二乘法的解

$\min_x \left \|\boldsymbol{Ax}- \boldsymbol{b} \right \|_2,\boldsymbol{A}\in\mathbf{C}^{m\times n},\boldsymbol{b}\in\mathbf{C}^{n}$

的特解为A的广义逆矩阵与b的乘积，这同时也是二范数极小的解，其通解为特解加上A的零空间。证明如下：

先将b拆成A的值域及其正交补两部分

$\boldsymbol{b}=\boldsymbol{b}_{1}+\boldsymbol{b}_{2}$

$\boldsymbol{b}_{1}=\boldsymbol{A}\boldsymbol{A}^\dagger\boldsymbol{b}\in R\left(\boldsymbol{A} \right)$

$\boldsymbol{b}_{2}=\left(\boldsymbol{I}- \boldsymbol{A}\boldsymbol{A}^\dagger \right)\boldsymbol{b}\in R\left(\boldsymbol{A} \right)^{\bot}$

所以 $\boldsymbol{Ax}-\boldsymbol{b}_{1}\in R\left(\boldsymbol{A} \right)$ ，可得

$\left \| \boldsymbol{Ax}- \boldsymbol{b} \right \|^{2}=\left \| \boldsymbol{Ax}- \boldsymbol{b}_{1} +\left(-\boldsymbol{b}_{2}\right) \right \|^{2}=\left \| \boldsymbol{Ax}- \boldsymbol{b}_{1} \right \|^{2}+\left \|\boldsymbol{b}_{2} \right \|^{2}$

故当且仅当 $\boldsymbol{x}$ 是 $\boldsymbol{Ax}= \boldsymbol{b}_{1} =\boldsymbol{A}\boldsymbol{A}^\dagger\boldsymbol{b}$ 解时， $\boldsymbol{x}$ 即为最小二乘解，即 $\boldsymbol{x}=\boldsymbol{A}^\dagger \boldsymbol{b}$ 。

又因为

$N\left(\boldsymbol{A}\right)=N\left(\boldsymbol{A}^\dagger \boldsymbol{A}\right)=R\left(\boldsymbol{I}-\boldsymbol{A}^\dagger \boldsymbol{A}\right)=\left\{ \left(\boldsymbol{I}-\boldsymbol{A}^\dagger \boldsymbol{A} \right) \boldsymbol{h}:\boldsymbol{h}\in\mathbf{C}^{n} \right\}$

故 $\boldsymbol{Ax}=\boldsymbol{A}\boldsymbol{A}^\dagger\boldsymbol{b}$ 的通解为

$\boldsymbol{x}=\boldsymbol{A}^\dagger\boldsymbol{b}+\left(\boldsymbol{I}-\boldsymbol{A}^\dagger \boldsymbol{A} \right) \boldsymbol{h}:\boldsymbol{h}\in\mathbf{C}^{n}$

因为

$\begin{align}\left \| \boldsymbol{A}^\dagger\boldsymbol{b}\right \|^{2} & < \left \| \boldsymbol{A}^\dagger\boldsymbol{b} \right \|^{2}+ \left \| \left(\boldsymbol{I}-\boldsymbol{A}^\dagger \boldsymbol{A} \right) \boldsymbol{h} \right \|^{2} \\& = \left \| \boldsymbol{A}^\dagger\boldsymbol{b} + \left(\boldsymbol{I}-\boldsymbol{A}^\dagger \boldsymbol{A} \right) \boldsymbol{h} \right \|^{2},\left(\boldsymbol{I}-\boldsymbol{A}^\dagger \boldsymbol{A} \right) \boldsymbol{h}\neq\boldsymbol{0} \\\end{align}$