梯度下降算法——theta参数更新公式的数学理解

最新推荐文章于 2025-04-06 09:00:00 发布

书浅_

最新推荐文章于 2025-04-06 09:00:00 发布

阅读量3.1k

点赞数

分类专栏： DM 文章标签：机器学习人工智能算法

本文链接：https://blog.csdn.net/lixc316/article/details/119133012

版权

本文深入探讨了梯度下降算法在机器学习中的应用，特别是在线性回归中的作用。通过数学推导解释了如何使用θ的更新公式来最小化损失函数J(θ)，并分析了损失函数下降方向的选择及其更新公式背后的原理。同时，文章讨论了泰勒公式在理解这一过程中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

（notice：粗体以示向量）

一、引出算法

在学习 Linear Regression 算法时，经典案例就是房价预测。在通过一系列预处理操作后，得到一个带有特征变量 $x$ 和可学习参数 $\theta$ 的假设函数:
$h_\theta(\textbf{x}) = \theta_0 + \theta_1{x_1} +\theta_2 {x_2}$

一般式：

$h_\theta(\textbf{x})=\sum_{i=0}^{n}\theta_{i}x_{i}=\boldsymbol{\theta}^{T}·\textbf{x} （n 为特征数）$
下一步要做的就是，构造一个均方损失函数：

$J(\boldsymbol\theta) = \frac{1}{2}\sum_{k=1}^{m} (h_\theta(\textbf{x}^k) - y^k)^2 （m 为训练集样本数量）$

$h_\theta(\textbf{x}^{k}) - y^k$
表示第 k 个样本的实际预测值和其真实值的差异，即“训练误差”。所有样本的训练误差之和为损失函数 $J(\boldsymbol{\theta})$ 。 $J(\boldsymbol{\theta})$ 越小，则说明可学习参数 $\boldsymbol{\theta}$ 调整的越好，算法泛化能力有可能也越好。

想让损失函数 $J(\boldsymbol{\theta})$ 变小，就只能迭代优化可学习参数 $\boldsymbol{\theta}$

而想要优化参数 $\boldsymbol{\theta}$ ，就可以使用梯度下降算法

二、梯度下降算法直观理解

CS229课程截图

直观看，假如损失函数的起始位置在上图 “1”的位置。由坐标轴刻度可知，此时的损失函数 $J(\boldsymbol{\theta})$ 的位置很高，数值很大。需要调整可学习参数 $\boldsymbol{\theta}$ 以减小在训练集上 $J(\boldsymbol{\theta})$ 的数值。
如图所示，损失函数 $J(\boldsymbol{\theta})$ 不断的寻找比当前位置更低的地方作为下一步驻留地，最后在位置“2”处停止寻找。此时便得到一个局部最优解 $\boldsymbol\theta$ .

这使用的就是下面这个更新公式：
$\theta_i := \theta_i - \alpha \frac{\partial}{\partial \theta_i} J(\boldsymbol{\theta})$
其中：(注意区分粗体)
${\frac{\partial}{\partial \theta_i} J(\boldsymbol{\theta}) = \frac{\partial}{\partial \theta_i} \frac{1}{2}\sum_{k=1}^m(h_\theta(\textbf{x}^k) - y^k)^2}$

最低0.47元/天解锁文章