（《机器学习》完整版系列）第3章线性模型——3.1 线性回归（线性模型对应于仿射函数）

人工干智能

已于 2023-03-31 10:20:36 修改

阅读量178

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：线性回归机器学习算法

于 2023-02-21 11:54:22 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129139501

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 29 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

文章详细介绍了线性模型的概念，包括仿射函数和线性函数的关系，并通过最小二乘法来推导线性回归的数学表达。对于单个属性的情况，解释了如何通过最小二乘法寻找最佳拟合直线。接着扩展到多个属性的情况，利用矩阵表示转化仿射函数为线性函数。文章还涉及了误差的度量，即均方误差，并通过拉格朗日乘子法求解优化问题。

摘要由CSDN通过智能技术生成

假定数据工程师希望模型实例的“样子”很简单：基于“多元一次式”（即仿射函数），在这个限定下，我们看看算法工程提供了什么算法。
注：【西瓜书式(3.1)(3.2)】是仿射函数，当 $b = 0$ 时为线性函数。线性模型对应的数学表达式是仿射函数，而不是字面上的线性函数，后续知识（式(6)）可知，仿射函数很容易转化为线性函数。故不管是仿射的还是线性的，统称为线性模型，几乎没有人说仿射模型。
“最小二乘法”用于推导线性回归，也常作为均方误差的几何解释。

线性回归

1.当属性的个数 $d = 1$ 时，【西瓜书式(3.1)】变为
$\begin{align} l: f(x)=wx+b \tag{1} \end{align}$

将数据集 ${x_i\}_{i=1}^m$ 代入式(1)则得到【西瓜书式(3.3)】。
注：【西瓜书式(3.1)】中的 $x_i$ 表示示例 $\boldsymbol{x}$ 的第 $i$ 个属性，而【西瓜书式(3.3)】中的 $x_i$ 表示数据集中第 $i$ 个样本，这时，（一维）向量 $\boldsymbol{x}$ 变为标量 $x$ 。

将【西瓜书式(3.3)】的第一式视为方程组： $m$ 个方程，但只有两个未知数 $(w, b)$ ，通常是无解，我们可以使用最小二乘法求一个“尽可能满足各方程”（即指不能达成等号的情况下，尽可能地接近等号。）的解。

“最小二乘法”的基本思路：找一条直线，使各样本点到该直线的欧氏距离之和最小。

简化：找一条直线，使各样本点到该直线的“纵标”欧氏距离 $|\hat{y_i}-y_i|$ 之和最小。如图1所示。

再方便化：找一条直线，使各样本点到该直线的“纵标”欧氏距离平方 $[\hat{y_i}-y_i]^2$ 之和最小（处理“平方和”比处理“绝对值和”方便）。
图1 “纵标”欧氏距离

图1 “纵标”欧氏距离

由“最小二乘法”可以得到我们需要最小化的目标函数
$\begin{align} E_{(w,b)}=\sum_{i=1}^m(y_i-wx_i-b)^2 \tag{2} \end{align}$

目标为：求 $w^*,b^*)$ 使 $E_{(w^*,b^*)}=\min E_{(w,b)}$ ，这句话用数学语言，即为
$\begin{align} (w^*,b^*)=\mathop{\arg\min}\limits_{\substack{(w,b)}}E_{(w,b)} \tag{3} \end{align}$
注：引入数学符号arg（argument论据，数学中指自变量），这里是指：已知函数，求满足条件（如，函数值最小）的自变量的值。

由均方误差定义【西瓜书式(2.2)】也可以得到式(2)，故“最小二乘法”常作为均方误差的几何解释。

将式(2)和式(3)两式合在一起写，即为【西瓜书式(3.4)】。

对目标函数(2)使用拉格朗日求极值的方法，得到式(3)的解【西瓜书式(3.7)(3.8)】

2.当属性的个数 $\neq 1$ 时，【西瓜书式(3.1)】变为
$\begin{align} \hat{y_i} & =f(\boldsymbol{x}_i)\notag \\ & ={\boldsymbol{w}}^\mathrm{T}{\boldsymbol{x}_i}+b\notag \\ & =[{\boldsymbol{x}_i}^\mathrm{T}{\boldsymbol{w}}]^\mathrm{T}+b\notag \\ & ={\boldsymbol{x}_i}^\mathrm{T}{\boldsymbol{w}}+1\cdot b\qquad\text{（标量的转置不变）}\notag \\ & =\left(\begin{array}{cc} {\boldsymbol{x}_i}^\mathrm{T} & 1 \\ \end{array}\right) \left(\begin{array}{c} \boldsymbol{w} \\ b \\ \end{array}\right) \tag{4} \end{align}$

对数据集 $D$ 中的所有样本都使用式(4)，即有

$\begin{align*} \begin{cases} \hat{y_1}=\left(\begin{array}{cc} \boldsymbol{x}_1^\mathrm{T} & 1 \\ \end{array}\right) \left(\begin{array}{c} \boldsymbol{w} \\ b \\ \end{array}\right) \\ \hat{y_2}=\left(\begin{array}{cc} \boldsymbol{x}_2^\mathrm{T} & 1 \\ \end{array}\right) \left(\begin{array}{c} \boldsymbol{w} \\ b \\ \end{array}\right) \\ \cdots \qquad \cdots \\ \hat{y_m}=\left(\begin{array}{cc} \boldsymbol{x}_m^\mathrm{T} & 1 \\ \end{array}\right) \left(\begin{array}{c} \boldsymbol{w} \\ b \\ \end{array}\right) \\ \end{cases} \end{align*}$
上式综合到一个式子中，则有

$\begin{align} \left( \begin{array}{c} \hat{y}_1 \\ \hat{y}_2 \\ \vdots \\ \hat{y}_m \\ \end{array} \right)= \left( \begin{array}{cc} \boldsymbol{x}_1^\mathrm{T} & 1 \\ \boldsymbol{x}_2^\mathrm{T} & 1 \\ \vdots \\ \boldsymbol{x}_m^\mathrm{T} & 1 \\ \end{array} \right) \left( \begin{array}{c} \boldsymbol{w} \\ b \\ \end{array} \right) \tag{5} \end{align}$

对式(5)引入缩写（向量与矩阵的表达），即
$\begin{align} \hat{\boldsymbol{y}}=\mathbf{X}\hat{\boldsymbol{w}} \tag{6} \end{align}$
注：式(5)与式(6)即为线性函数，即通过这种变换就将仿射函数转化成了线性函数。

由此，总（均方）误差可以表示成点 $\boldsymbol{y}=(y_1,y_2,\cdots,y_m)$ 与点 $\hat{\boldsymbol{y}}=(\hat{y}_1,\hat{y}_2,\cdots,\hat{y}_m)$ 之间的欧氏距离（平方），即
$\begin{align} (\boldsymbol{y}-\hat{\boldsymbol{y}})^\mathrm{T}(\boldsymbol{y}-\hat{\boldsymbol{y}}) \tag{7} \end{align}$
即
$\begin{align} (\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol{w}})^\mathrm{T}(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol{w}}) \tag{8} \end{align}$
式(7)或式(8)记为 $E_{\hat{\boldsymbol{w}}}$

$\begin{align} \frac{\partial E_{\hat{\boldsymbol{w}}}}{\partial \hat{\boldsymbol{w}}} & =\frac{\partial (\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol{w}})^\mathrm{T}(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol{w}})}{\partial \hat{\boldsymbol{w}}}\notag \\ & =2 {\boldsymbol{x}}^{\mathrm{T}}(\mathbf{X}\hat{\boldsymbol{w}}-\boldsymbol{y})\tag{9} \\ & \qquad \text{（此处应用了【西瓜书附录式(A.32)】）}\notag \end{align}$
即【西瓜书式(3.10)】，后续推理显然，由此得到线性回归，进而广义线性模型。

本文为原创，您可以：

点赞（支持博主）
收藏（待以后看）
转发（他考研或学习，正需要）
评论（或讨论）
引用（支持原创）
不侵权

上一篇：2.9 在机器学习开发实践中如何改善学习器的性能？
下一篇：3.2 对数几率回归（俗称：逻辑回归，但它既不“逻辑”也不是“回归”）

人工干智能

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
（《机器学习》完整版系列）第3章线性模型——3.1 线性回归（线性模型对应于仿射函数）

假定数据工程师希望模型实例的“样子”很简单：基于“多元一次式”（即仿射函数），在这个限定下，我们看看算法工程提供了什么算法。线性模型对应的数学表达式是仿射函数，而不是字面上的线性函数，仿射函数很容易转化为线性函数。故不管是仿射的还是线性的，统称为线性模型，几乎没有人说仿射模型。 “最小二乘法”用于推导线性回归，也常作为均方误差的几何解释。
复制链接

扫一扫