machine learning个人笔记系列（二）_梯度下降 simultaneously update-CSDN博客

本文链接：https://blog.csdn.net/seedcup/article/details/81430168

本文深入探讨了多变量线性回归模型的概念及其求解方法，包括梯度下降算法的应用及参数更新公式，并介绍了特征缩放的重要性。此外，还对比了梯度下降法与正则方程法的不同之处，帮助读者理解何时选用哪种方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

多变量线性回归

向Andrew Ng的机器学习课程致敬

多变量线性回归

多变量线性回归就是拓展单变量线性回归。

模型

h θ (x) = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n

$h_\theta(x) = \theta_0 + \theta_1x_1 + \theta_2x_2 + ...+ \theta_nx_n$

定义 $x_0 = 1$ ，则可以改写为

h θ (x) = θ 0 x 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n

$h_\theta(x) = \theta_0x_0 + \theta_1x_1 + \theta_2x_2 + ...+ \theta_nx_n$

梯度下降求解模型参数

梯度下降算法求解模型参数跟单变量模型一样的，就是变量多了而已。新的求参算法如下：

repeat {

$θ j = θ j - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j$ $\theta_j = \theta_j - \alpha \frac{1}{m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})x_{j}^{(i)}$
(simultaneously update $\theta_j$ for j = 0, …, n)
}

特征缩放

idea: 让所有特征的取值范围在相近的范围内。这样做的目的是为了加快收敛，减少采用梯度下降算法迭代的次数。
一般是让特征值的取值范围尽量落在[-1, 1]之间。

方法：

x n e w i = x i - μ i m a x - m i n

$x_{newi} = \frac{x_i - \mu_i} {max -min}$

学习率

$\alpha$ 太小，收敛慢
$\alpha$ 太大，不是每轮迭代损益函数值下降，甚至不会收敛

因此，andrew 给的学习率取值方式为

…, 0.001, 0.003, 0.01,0.03, 0.1, 0.3, 1, …

正则方程

最基础的最小二乘法，求解线性回归问题，其核心思想就是设偏导为0，求参数值。即

\partial \partial θ j J (θ) = . . . = 0 (f o r e v e r y j)

$\frac{\partial}{\partial\theta_j} J(\theta) =...=0 \quad (for \ every \ j)$
也即：

θ = (X T X) - 1 X T y

$\theta = (X^TX)^{-1}X^Ty$

梯度下降VS正则方程

梯度下降	正则方程
需要选择 $\alpha$	不用
需要多轮迭代	不用
当特征很多的时候，也可以很好的工作	特征很多的时候，计算量非常大

简单谈谈什么时候使用梯度下降法，什么时候使用正规方程法？

正规方程法在训练集个数较少时(<10000)，计算效率会优于梯度下降法，否则便使用梯度下降法；
正规方程法不需要设定学习率，即不会涉及到调参的问题，且不需要迭代；
梯度下降法的时间复杂度O(kn^2), 正规方程法的时间复杂度O(n^3)。

总而言之，训练集个数少于10000优先使用正规方程法，否则使用梯度下降法。