2.14 向量化 Logistic 回归的梯度输出-深度学习-Stanford吴恩达教授

最新推荐文章于 2024-10-17 14:31:31 发布

Zhao-Jichao

最新推荐文章于 2024-10-17 14:31:31 发布

阅读量6k

点赞数 8

分类专栏：深度学习DL 文章标签：深度学习机器学习神经网络逻辑回归算法

本文链接：https://blog.csdn.net/weixin_36815313/article/details/105327929

版权

深度学习DL 专栏收录该内容

206 篇文章 2995 订阅

订阅专栏

←上一篇	↓↑	下一篇→
2.13 向量化 Logistic 回归	回到目录	2.15 Python 中的广播

向量化 Logistic 回归的梯度输出 (Vectorizing Logistic Regression’s Gradient Computation)

注：本节中大写字母代表向量，小写字母代表元素

如何向量化计算的同时，对整个训练集预测结果 $a$ ，这是我们之前已经讨论过的内容。在本次视频中我们将学习如何向量化地计算 $m$ 个训练数据的梯度，本次视频的重点是如何同时计算 $m$ 个数据的梯度，并且实现一个非常高效的逻辑回归算法(Logistic Regression)。

之前我们在讲梯度计算的时候，列举过几个例子， $dz^{(1)}=a^{(1)}-y^{(1)}$ ， $dz^{(2)}=a^{(2)}-y^{(2)}$ ……等等一系列类似公式。现在，对 $m$ 个训练数据做同样的运算，我们可以定义一个新的变量 $dZ=[dz^{(1)},dz^{(2)},\cdots,dz^{(m)}]$ ，所有的 $d z$ 变量横向排列，因此， $d Z$ 是一个 $1 * m$ 的矩阵，或者说，一个 $m$ 维行向量。在之前的幻灯片中，我们已经知道如何计算 $A$ ，即 $[a^{(1)},a^{(2)},\cdots,a^{(m)}]$ ,我们需要找到这样的一个行向量 $Y=[y^{(1)},y^{(2)},\cdots,y^{(m)}]$ ，由此，我们可以这样计算 $dZ=A-Y=[a^{(1)}-y^{(1)},a^{(2)}-y^{(2)},\cdots,a^{(m)}-y^{(m)}]$ ，不难发现第一个元素就是 $dz^{(1)}$ ，第二个元素就是 $dz^{(2)}$ ……所以我们现在仅需一行代码，就可以同时完成这所有的计算。

在之前的实现中，我们已经去掉了一个for循环，但我们仍有一个遍历训练集的循环，如下所示：

$d w = 0$ $dw+=x^{(1)}*dz^{(1)}$ $dw+=x^{(2)}*dz^{(2)}$ $\vdots$ $dw+=x^{(m)}*dz^{(m)}$ $dw=\frac{dw}m$ $d b = 0$ $db+=dz^{(1)}$ $db+=dz^{(2)}$ $\vdots$ $db+=dz^{(m)}$ $db+=\frac{db}m$

上述（伪）代码就是我们在之前实现中做的，我们已经去掉了一个for循环，但用上述方法计算 $d w$ 仍然需要一个循环遍历训练集，我们现在要做的就是将其向量化！

首先我们来看 $d b$ ，不难发现 $db=\frac1m\sum_{i=1}^mdz^{(i)}$ ，之前的讲解中，我们知道所有的 $dz^{(i)}$ 已经组成一个行向量 $d Z$ 了，所以在Python中，我们很容易地想到 $db=\frac1m*np.sum(dZ)$ ；接下来看 $d w$ ，我们先写出它的公式 $dw=\frac1m*X*dz^T$ 其中， $X$ 是一个行向量。因此展开后 $dw=\frac1m*(x^{(1)}dz^{(1)}+x^{(2)}dz^{(2)}+\cdots+x^{(m)}dz^{(m)})$ 。因此我们可以仅用两行代码进行计算： $db=\frac1m*np.sum(dZ)$ ， $dw=\frac1m*X*dz^T$ 。这样，我们就避免了在训练集上使用for循环。

现在，让我们回顾一下，看看我们之前怎么实现的逻辑回归，可以发现，没有向量化是非常低效的，如下图所示代码：

在这里插入图片描述

我们的目标是不使用for循环，而是向量，我们可以这么做：

$Z=w^TX+b=np.dot(w.T,x)+b$ $A=\sigma(Z)$ $d Z = A - Y$ $dw=\frac1m*X*dz^T$ $db=\frac1m*np.sum(dZ)$ $w:=w-\alpha*dw$ $b:=b-\alpha*db$

现在我们利用前五个公式完成了前向和后向传播，也实现了对所有训练样本进行预测和求导，再利用后两个公式，梯度下降更新参数。我们的目的是不使用for循环，所以我们就通过一次迭代实现一次梯度下降，但如果你希望多次迭代进行梯度下降，那么仍然需要for循环，放在最外层。不过我们还是觉得一次迭代就进行一次梯度下降，避免使用任何循环比较舒服一些。

最后，我们得到了一个高度向量化的、非常高效的逻辑回归的梯度下降算法，我们将在下次视频中讨论Python中的Broadcasting技术。