C1 - week2 - part3 梯度下降法 Gradient Descent

kkkobe7

已于 2022-07-13 10:56:53 修改

阅读量736

点赞数

文章标签：机器学习深度学习算法

于 2022-05-03 08:59:37 首次发布

本文链接：https://blog.csdn.net/apple_52071864/article/details/124550407

版权

week2-part3 梯度下降法 Gradient Descent

1.直观解释

在上一节我们指出，
$预测值\ \hat{y} = \sigma(w^t x + b), \sigma(z) = \frac{1}{1 + e^{-z}} \\ J(w, b) = \frac{1}{m}\sum_{i = 1}^{m}L(\hat{y}^{(i)}, y^{(i)}) = -\frac{1}{m}\sum_{i = 1}^{m}y^{(i)}\log\hat{y}^{(i)}+(1 - y^{(i)})\log(1 - \hat{y}^{(i)})$
梯度下降算法，通过你的测试集，通过最小化代价函数 $J (w, b)$ 来训练学习参数w和b。

我们通过图示来更好地解释梯度下降算法。

纵轴为代价函数 $J (w, b)$ 形成的曲面，曲面上某一点个高度就是在对应w和b下 $J (w, b)$ 的函数值。我们所做的就是找到使代价函数 $J (w, b)$ 函数值最小的参数w和b，也就是图中曲面最低点对应的w和b。

在这个图中，横轴表示你的参数w和b，在实际情况中，w可以是更高的维度，但为了更好地绘图，我们定义w和b都是一维实数。

首先我们需要在图中选定一个点作为我们训练的起点，也就是初始化参数w和b。我们完全可以采用随机初始化的方法，对于逻辑回归几乎所有的初始话方法都有效。（因为函数是凸函数，无论在哪里初始化，几乎最终都会达到同一点）

我们随机选取一点来初始化参数w和b，然后不断朝着最陡的下坡方向走一步，不断迭代，直到走到全局最优解或者接近最优解的地方。演示如下（注意球于黄色中心相对位置的变化，黑色线为最陡方向，蓝色虚线球为更新后位置）

在这里插入图片描述

2.数学解释

接下来，我们用仅有一个参数的情况来细节化说明梯度下降算法。

假定代价函数 $J (w)$ 只有一个参数w，即用一维曲线代替多维曲线，便于更好画图。

我们选取一个起点 $w_0$ ，利用公式 $\alpha\frac{d J(w)}{d w}$ 不断更新w的取值，直至最终达到最低点位置（或近似）。如下图所示
在这里插入图片描述

公式中， $\alpha$ 表示学习率，用来控制步长，即向下走一步的长度。 $\frac{d J(w)}{d w}$ 是函数 $J (w)$ 对w求导，在代码中我们会用 $d w$ 表示这个结果。

对于导数更加形象化的理解就是斜率，如上图右边的红色三角形所示，某点的导数就i是这个点相切于 $J (w)$ 曲线的小三角形的高除宽。假设我们从图中靠右的 $w_0$ 作为起点，该点斜率为正，即 $\frac{d J(w)}{d w} > 0$ ，所以 $\alpha\frac{d J(w)}{d w}$ 更新后会减小，所以接下来向左走一步到达 $w_1$ 处，不断如此。同理，如果我们到达最低点左边，那么斜率就为负数，w更新后增大，向右走，接近最低点。

故整个梯度下降算法的迭代过程就是朝着最小值点的方向走。

我们现在回归之前有两个参数w和b的情况，同理，我们只需要同时对两个参数进行更新即可。
$\alpha \frac{\partial J(w, b)}{\partial w},\ b := b - \alpha \frac{\partial J(w, b)}{\partial b}$

其中 $\partial$ 表示求偏导符合，可以读作round
$\frac{\partial J(w, b)}{\partial w}$ 就是函数 $J (w, b)$ 对w求偏导， $\frac{\partial J(w, b)}{\partial b}$ 就是函数 $J (w, b)$ 对b求偏导，在代码中我们分别用 $d w$ , $d b$ 来表示这两个结果
小写字母 $d$ 在对一个参数的函数求导时使用，偏导数符号 $\partial$ 在对多参数函数求导时使用

你将训练集中的 $x$ 输入，随机选取参数 $w$ 和 $b$ ，求出此时的 $J (w, b)$ ，然后通过求导不断更新参数 $w$ 和 $b$ ，再求出对应状态下的 $J (w, b)$ ，不断迭代，直至 $J (w, b)$ 达到一个令人满意的值，此时对应的w和b就是你训练出来的模型参数。利用此参数，只要你给出输入 $x$ ，它便可以计算出预测的 $y$ 值，一个简单的模型便构建完成。