机器学习回归理论推导——以线性回归为例

最新推荐文章于 2025-03-10 18:39:58 发布

zhangpaopao0609

最新推荐文章于 2025-03-10 18:39:58 发布

阅读量2.2k

点赞数 10

分类专栏：机器学习 Python 文章标签：机器学习回归理论推导——以线性回归为例回归理论回归拟合的原理

本文链接：https://blog.csdn.net/qq_41800366/article/details/86607092

版权

Python 同时被 2 个专栏收录

71 篇文章

订阅专栏

机器学习

13 篇文章

订阅专栏

1. 概述

机器学习一共有两大主要任务，一类是讲实例数据划分到合适的分类中，也就是分类问题；另一类是用于预测数值型数据，也就是回归问题。
我们应该都建构回归的例子——数据拟合曲线：通过给定数据拟合出最优的曲线。
拟合曲线也就是使得所有数据点的结果(真实的y) 和曲线拟合出的结果(拟合出的y)差距的总和最小，在回归中最经典的方法就是最小二乘法，本文以拟合线性回归数据为例，利用最小二乘法来推导这一回归过程。

2. 回归推导

2.1 单变量线性回归简单示例

现在有数据如下： $(x_{1},y_{1} ), (x_{2},y_{2} )...... (x_{m},y_{m} )$ 一共m个数据, 我们的目的是拟合一条曲线，使得所有数据到这条曲线的距离和最小；
假设我们的拟合曲线为 $f(x) = wx + b$ , （1）

那么此时的代价函数（cost function，也就是拟合出的y 和真实的y 的总差距）为

$J(x) = \frac{1}{2}\sum_{i=1}^{m}\left ( f(x_{i}) -y_{i}\right )^{2}$ 即 $J(w, b) = \frac{1}{2}\sum_{i=1}^{m}\left ( wx_{i} + b -y_{i}\right )^{2}$ （2）

这里解释一下这个代价函数的原理

因为 $f(x_{i}) -y_{i}$ 就是拟合值和实际值的差值，要计算总和，所以全部相加，但是因为 $f(x_{i}) -y_{i}$ 有正有负，所以需要加绝对值，结果如下 $J(x) = \frac{1}{2}\sum_{i=1}^{m}\left | \left ( f(x_{i}) -y_{i}\right )\right |$ ，但是涉及到绝对值的计算都相当的复杂，所以把差值 $f(x_{i}) -y_{i}$ 加上平方可以极大的减少计算量并且不影响最终结果。这就是上面公式的原理。

因此代价函数表示的是拟合值f(x)与实际值y之间的差值的平方。它对应了欧几里得距离即“欧氏距离”。

基于均方误差最小化来求解模型的方法我们叫做“最小二乘法”。在线性回归中，最小二乘法实质上就是找到一条直线，使所有样本数据到该直线的欧式距离之和最小，即误差最小。

求解代价函数的最小值，直接分别对其求 $\large w$ 和 $\large b$ 的偏导，使其等于0，求解方程，解出 $\large w$ 和 $\large b$ 的值，对应的曲线也就出来了。

分别对 $\large w$ 和 $\large b$ 求偏导可得：

$\frac{\partial J(w, b))}{\partial w} =\sum_{i=1}^{m}(wx_{i}^2 +(b-y_{i})x_{i})$ $J(w, b)$ 对 $w$ 求偏导（3）

$\frac{\partial J(w, b))}{\partial b} =\sum_{i=1}^{m}(wx_{i} +b-y_{i}) = mb + \sum_{i=1}^{m}(wx_{i} -y_{i})$ $J(w, b)$ 对 $b$ 求偏导（4）

令（3）和（4）分别等于零，求得出 $\large w$ 和 $\large b$ 的值如下：

$b = \overline{y} - w\overline{x} = \tfrac{1}{m}\sum_{i=1}^{m}y_{i} - w\tfrac{1}{m}\sum_{i=1}^{m}x_{i}$ （5）

$\LARGE w =\tfrac{\sum_{i=1}^{m}y_{i}(x_{i}-\overline{x})}{\sum_{i=1}^{m}x_{i}^2-(\overline{x})^2} = \tfrac{\sum_{i=1}^{m}y_{i}(x_{i}-\tfrac{1}{m}\sum_{i=1}^{m}x_{i})}{\sum_{i=1}^{m}x_{i}^2-(\tfrac{1}{m}\sum_{i=1}^{m}x_{i})^2}$ （6）

令（3）和（4）分别等于零，解出式（5）和（6），中间过程涉及到统计学知识，本文暂不赘述。

这样 $\large w$ 和 $\large b$ 的辨得出结果了，相应的曲线也求出来了。

2.2 推广到一般情况

假设数据集有m个样本，每个样本有n个特征，用 $\large X$ 矩阵表示样本和特征， $\large X$ 是一个 mxn 的矩阵：

$\large X = \begin{bmatrix} x_{11} & x_{12} & ... & x_{1n} \\ x_{21}&x_{22} & ... & x_{2n} \\ \vdots & \vdots &\vdots &\vdots \\ x_{m1} & x_{m2} & ...& x_{mn} \\ \end{bmatrix}$

用矩阵 $\large Y$ 表示标签，是一个m×1的矩阵：

$\large Y = \begin{bmatrix} y_{1} & y_{2} &...& y_{m} \\ \end{bmatrix}^T$

假设参数为 $\large \Theta$ 矩阵，是一个n×1的矩阵:

$\large \Theta = \begin{bmatrix} \theta_{1} & \theta_{2} &...& \theta_{n} \\ \end{bmatrix}^T$

（在实际计算中我们会加一个偏差（bias）也就是 $\large \theta_{0}$ ，也就是相当于单变量中的 b ，但是这里为了推导方便所以没加，但是不管加还是不加，推导的结果都是一样的）。

此时的线性模型如下：

$\large h_{\theta}(x) = X\Theta$ (7)

$\large h$ 表示假设，即hypothesis。通过矩阵乘法， $\large X\Theta$ 结果是一个m×1的矩阵。

跟前面推导的单变量的线性回归模型是一样的，列出代价函数如下：

$\large J(\theta) = \tfrac{1}{2}(h(\theta)-Y)^2 = \tfrac{1}{2}(X\theta-Y)^2$ (8)

式（8）中1/2并实际意义，只是为了求导时能将参数正好消掉而加上的，不加上也不会影响最终结果。
代价函数代表了误差，我们希望它尽可能地小，所以同样对它求偏导并令偏导数为0，求解方程，解出 $\large \Theta$ ，即可得拟合曲线。

首先对代价函数做一些处理，特别注意，因为（8）中我们的 $\large (X\theta-Y)^2$ 实际上是要 $\large X\theta-Y$ 中每一个元素的平方的总和；同时 $\large X\theta-Y$ 计算后是一个mx1的矩阵，因此 $\large (X\theta-Y)^2$ 可以化为 $\large (X\theta-Y)^T(X\theta-Y)$ , 最终得到 $\large X\theta-Y$ 中每一个元素的平方的总和值。因此式（8）可化为：