机器学习笔记01：线性回归(Linear Regression)和梯度下降(Gradient Decent)

最新推荐文章于 2025-09-23 15:40:34 发布

原创最新推荐文章于 2025-09-23 15:40:34 发布 · 1w 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #线性回归 #梯度下降

Machine Learning 同时被 2 个专栏收录

25 篇文章

订阅专栏

Coursera 斯坦福大学机器学习笔记

15 篇文章

订阅专栏

本文介绍机器学习中线性回归的基本概念及其应用，并详细解释如何利用梯度下降法求解最佳参数。

　　最近在Coursera上看吴大神的Machine Learning，感觉讲的真的很棒。所以觉得应该要好好做做笔记，一方面是加强自己对ML中一些方法的掌握程度和理解，另一方面也能方便自己或者同样爱好ML的同学。

线性回归(Linear Regression)

　　线性回归（Linear Regression）应该是机器学习中最基本的东西了。所谓回归，想必大家在高中时期的课程里面就接触过，给定一系列离散的点 $(x_0,y_0)$ ，求一条直线 $f(x)=ax+b$ 以使得各点与直线的距离之和最小。在machine learning 中，线性回归要做的就是求得最优的 $a$ 和 $b$ ，以此达到对未来数据能够有一个足够好的预测。

一、假设函数（Hypothesis Function）

　　首先，我们需要一个函数来拟合我们得到的一些数据，我们不妨把这个函数称为假设函数（hypothesis function）。这里是线性回归，所以可以把假设函数设为 $h_θ (x)= θ_0+θ_1 x$ 。现在来举一个例子，假设我们有5组房子的面积 $（area）$ 和价格 $（prices）$ 的数据如下，然后我们要求出一个函数，用来预测未来的房价：

Area( $m^2$ )	Prices(dollar)
40	100,000
50	120,000
60	145,000
70	200,000
80	222,100

我们可以得到其图像如下：

　　假设我们随意地将

θ0 $\theta_0$ 和

θ1 $\theta_1$ 分别设为0和1，那么我们的假设函数就为

hθ(x)=0+1⋅x $h_θ (x)= 0+1\cdot x$ 。如果将面积

x $x$ 代入到此式子中，得到的

y $y$ 值将严重偏离其对应的价格。所以0和1不是一个好的取法。那我们到底该怎么获得最优的

θ0 $\theta_0$ 和

θ1 $\theta_1$ 使得误差最小呢？这里我们就要引入一个函数
　　

J (θ 0, θ 1) = 1 2 n \sum i = 0 n (h θ (x i) - y i) 2

$J(\theta_0,\theta_1 )=\frac{1}{2n} \sum_{i=0}^n (h_\theta(x_i)-y_i)^2$ 作为误差函数。

二、误差函数（Cost Function）

　　我们选择关于 $\theta_0$ 和 $\theta_1$ 的函数 $J(\theta_0,\theta_1 )=\frac{1}{2n} \sum_{i=0}^n (h_\theta(x_i)-y_i)^2$ 作为误差函数。后面的求和部分与求方差无异，前面的系数 $\frac{1}{2n}$ 本应该是 $\frac{1}{n}$ ，但是为了方便后面的求导，所以写成 $\frac{1}{2n}$ ，但是这并不会影响我们用这个函数来度量误差。那么到底怎么求得最合适的 $\theta_0$ 和 $\theta_1$ 呢？下面将引入一种叫做梯度下降（Gradient Decent）的方法。稍后我们再来证明为什么要选择上面这个函数作为误差函数以及这个函数的正确性。

三、梯度下降（Gradient Decent）

　　首先来看看什么是梯度下降。梯度下降嘛，顾名思义，梯度就是步长或者间隔的意思，下降当然就是往下降了。先来看一张图片：

说明：本张图片版权属于Stanford机器学习课程，转载请注明出处
　　上面这张图是一个二元函数

J(θ0,θ1) $J(\theta_0,\theta_1 )$ 的图像，先不论其方法细节，我们要做的就是在这张图上找到那个使误差函数

J(θ0,θ1) $J(\theta_0,\theta_1 )$ 最小的点(注意，上面这幅函数图像并不是之前的我们所说的误差函数

J(θ0,θ1)=12n∑ni=0(hθ(xi)−yi)2 $J(\theta_0,\theta_1 )=\frac{1}{2n} \sum_{i=0}^n (h_\theta(x_i)-y_i)^2$ 的图像,这里只是举个例子而已，真正的误差函数图像会在文章最后给出)，而我们使用的方法就是梯度下降法。其大概步骤就是：
　　
　　1. 随意给定一组点

(θ0,θ1) $(\theta_0,\theta_1 )$ 的值，比如上图中的左边那个红色的“山顶”上的那个起始点;
　　2. 在该点上转一圈，选择最陡峭的那个方向，然后向那个方向迈出一步。
　　3. 得到新的点，然后继续重复第二步，直到到达最低的地方。

那我们先来说说梯度下降法到底是怎么得到最佳的 $(\theta_0,\theta_1 )$ 的。首先给出一个收敛公式：

θ j = θ j - α \partial \partial θ j J (θ 0, θ 1)

$\theta_j = \theta_j - \alpha \frac{\partial}{\partial \theta_j} J(\theta_0, \theta_1)$

其中 $\alpha$ 称为学习速率； $j = 0, 1$ ； $\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)$ 表示函数 $J(\theta_0,\theta_1 )=\frac{1}{2n} \sum_{i=0}^n (h_\theta(x_i)-y_i)^2$ 在点 $(\theta_0,\theta_1)$ 处的偏导数。只要我们取一个合适的 $\alpha$ 然后重复地对这个式子进行运算，直到 $\theta_j$ 不再变化，或者说一阶偏导数 $\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)$ 为零时，我们就得到了最佳的 $\theta_j$ 。

可能看到这里，还是一脸懵逼。那我们再来形象地讨论一下这个部分。对于函数 $J(\theta_0,\theta_1)$ ，当我们求它的关于 $\theta_j$ 的偏导数的时候，其实就是在求一元函数的斜率，我们来看下面这张二次函数的图像：

如果我们选取合适的

α $\alpha$ （

α $\alpha$ 应该是一个比较小的数），根据上面的收敛公式，我们就会使

θj $\theta_j$ 逐渐靠近斜率为

0 $0$ 的位置。需要注意的是，不管我们的起始点选在最低点的左边还是右边，因为斜率在左边为负数，在右边为正数，所以收敛公式都会向中间点靠近，但是前提是

α $\alpha$ 的选取要合适：
这里写图片描述

但是如果

α $\alpha$ 选取得太大，即便偏导数很小，都可能会造成

α⋅∂∂θjJ(θ0,θ1) $\alpha\cdot \frac{\partial}{\partial \theta_j} J(\theta_0, \theta_1)$ 太大，而执行一次减法就使得

θj $\theta_j$ 越过最低点，以至于

θj $\theta_j$ 逐渐偏离最佳的位置：
这里写图片描述

所以分别对 $\theta_0$ 和 $\theta_1$ 求偏导数后，对于 $\theta_0$ 有如下公式：
（求偏导数：把最开始的那个假设函数 $h_\theta(x) = \theta_0 + \theta_1\cdot x$ 代入上面的收敛函数，注意不是对 $x,y$ 求偏导）

θ 0 = θ 0 - α \cdot 1 n \sum i = 1 n (h θ (x i) - y i)

$\theta_0 = \theta_0 - \alpha\cdot\frac{1}{n}\sum_{i=1}^n(h_\theta(x_i)-y_i)$

对于 $\theta_1$ 有如下公式：

θ 1 = θ 1 - α \cdot 1 n \sum i = 1 n (h θ (x i) - y i) \cdot x i

$\theta_1 = \theta_1 - \alpha\cdot\frac{1}{n}\sum_{i=1}^n(h_\theta(x_i)-y_i)\cdot x_i$
其中

n $n$ 是训练集

{(xi,yi)|i=1,2,3,...,n} $\{(x_i,y_i)|i = 1,2,3,...,n\}$ 的数量，

α $\alpha$ 称为学习速率。另外需要注意的是，

θ0 $\theta_0$ 和

θ1 $\theta_1$ 要分别求出来之后，再进行下一轮的收敛：

while(not convergent){
    calculate theta0；// or you can say update theta0
    calculate theta1; // or you can say update theta1
}

可以想象，当 $\theta_0$ 和 $\theta_1$ 都达到最佳值的时候，我们的二元误差函数

J (θ 0, θ 1) = 1 2 n \sum i = 0 n (h θ (x i) - y i) 2

$J(\theta_0,\theta_1 )=\frac{1}{2n} \sum_{i=0}^n (h_\theta(x_i)-y_i)^2$
就有最小值，也就说明假设函数

hθ(x)=θ0+θ1⋅x $h_\theta(x) = \theta_0 + \theta_1\cdot x$ 对未来数据的预测可能会尽量的准确。
这就是我们在线性回归(linear regression)中用到的梯度下降(gradient decent)法。

四、以上方法的正确性

1.梯度下降就不再赘述了。
2.为什么我们选取的误差函数假设函数 $J_\theta(\theta_0,\theta_1)$ 是正确的呢？
我们来求一求函数 $J(\theta_0,\theta_1 )=\frac{1}{2n} \sum_{i=0}^n (h_\theta(x_i)-y_i)^2$ 的二阶偏导数就知道为什么了。
关于 $\theta_0$ 的二阶偏导数：

\partial 2 \partial θ 2 0 J (θ 0, θ 1) = \partial \partial θ 0 1 n \sum i = 1 n (θ 0 + θ 1 \cdot x i - y i) = 1 > 0

$\begin{align} \frac{\partial^2}{\partial\theta_0^2}J(\theta_0,\theta_1 ) &= \frac{\partial}{\partial\theta_0}\frac{1}{n}\sum_{i=1}^n(\theta_0+\theta_1\cdot x_i-y_i) \\ &= 1 > 0 \end{align}$
所以对于

θ0 $\theta_0$ ，其对应的一元函数的斜率的变化率是一直不变的，即其函数的图像是严格的抛物线。
关于

θ1 $\theta_1$ 的二阶偏导数：

\partial 2 \partial θ 2 1 J (θ 0, θ 1) = \partial \partial θ 1 1 n \sum i = 1 n (θ 0 + θ 1 \cdot x i - y i) \cdot x i = 1 n \sum i = 1 n x 2 i > 0

$\begin{align} \frac{\partial^2}{\partial\theta_1^2}J(\theta_0,\theta_1 ) &= \frac{\partial}{\partial\theta_1}\frac{1}{n}\sum_{i=1}^n(\theta_0+\theta_1\cdot x_i-y_i) \cdot x_i\\ &= \frac{1}{n}\sum_{i=1}^n x_i^2 > 0 \end{align}$
所以对于

θ1 $\theta_1$ ，其对应的一元函数的斜率的变化率同样是一直不变的，即其函数的图像是严格的抛物线。
以上两个一阶偏导数的变化率均为正数，所以可以想象函数