梯度下降法的示例_梯度下降法的例题-CSDN博客

本文链接：https://blog.csdn.net/liuzk423/article/details/138664447

梯度下降法是一种用于寻找函数最小值的优化算法，常用于机器学习中模型参数的学习。下面，我将以一个简单的线性回归问题为例，来展示梯度下降法的工作原理。

假设我们有一组数据点，希望通过这些数据点拟合一条直线 ( y = wx + b )，其中 ( w ) 是斜率，( b ) 是截距。我们的目标是最小化所有数据点预测值与实际值之间的差的平方和，即最小化损失函数（或称为成本函数） ( J(w, b) )：

[ J(w, b) = \frac{1}{2n} \sum_{i=1}^{n} (y_i - (wx_i + b))^2 ]

这里 ( n ) 是数据点的数量，( (x_i, y_i) ) 是第 ( i ) 个数据点的坐标。

初始化参数：首先，我们随机选择或设定初始的 ( w ) 和 ( b ) 的值，例如 ( w = 0 ), ( b = 0 )。
计算梯度：对于给定的 ( w ) 和 ( b )，我们需要计算损失函数 ( J ) 关于 ( w ) 和 ( b ) 的偏导数，这代表了损失函数在当前位置的梯度方向。梯度指向的是函数增长最快的方向，因此我们沿着负梯度方向移动以减少损失。

对 ( w ) 的偏导数为：
[ \frac{\partial J}{\partial w} = -\frac{1}{n} \sum_{i=1}^{n} (y_i - (wx_i + b))x_i ]

对 ( b ) 的偏导数为：
[ \frac{\partial J}{\partial b} = -\frac{1}{n} \sum_{i=1}^{n} (y_i - (wx_i + b)) ]
更新参数：根据梯度和学习率 ( \alpha ) 更新 ( w ) 和 ( b )。学习率决定了每次迭代时参数更新的幅度。

更新规则为：
[ w = w - \alpha \frac{\partial J}{\partial w} ]
[ b = b - \alpha \frac{\partial J}{\partial b} ]
重复步骤2和3：重复计算梯度和更新参数的过程，直到满足某个停止条件，如梯度接近0、达到预定的迭代次数或损失函数的变化小于某个阈值。