吴恩达深度学习课程疑难点笔记系列-神经网络和深度学习-第2周

最新推荐文章于 2022-03-15 09:39:16 发布

黄水生

最新推荐文章于 2022-03-15 09:39:16 发布

阅读量381

点赞数

分类专栏：吴恩达深度学习

本文链接：https://blog.csdn.net/jackhh1/article/details/103539988

版权

吴恩达深度学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

本笔记系列参照吴恩达深度学习课程的视频和课件，并在学习和做练习过程中从CSDN博主何宽分享的文章中得到了帮助，再此表示感谢。

本周主要学习的内容有：二元分类、logistic回归、logistic回归损失函数、梯度下降法、计算图、logistic回归中的梯度下降法、向量化logistic回归以及梯度输出、Python广播操作

二元分类问题是指输出值为0或1的问题，属于离散输出问题，我们可以使用逻辑回归算法来解决，换句话来说逻辑回归可以有效解决输出值为0或1这样的二元分类问题。逻辑回归模型的数学表达如下

给定一个输出 $x^{(i)}$ 及其对应的标签值 $y^{(i)}$ :
我们首先进行初始化权重W和偏差b后得到
$z^{(i)} = w^T x^{(i)} + b \tag{1}$
根据sigmoid激活函数我们可以得到本次模型的预测值 $\hat{y}^{(i)}$ :
$\hat{y}^{(i)} = a^{(i)} = sigmoid(z^{(i)})=\frac{1}{1+e^{-z}}\tag{2}$
进一步我们得出本次输出的损失函数为：
$\mathcal{L}(a^{(i)}, y^{(i)}) = - y^{(i)} \log(a^{(i)}) - (1-y^{(i)} ) \log(1-a^{(i)})\tag{3}$

对于m个样本模型的损失函数为：
$\frac{1}{m} \sum_{i=1}^m \mathcal{L}(a^{(i)}, y^{(i)})\tag{4}$

以上就是一次前向传播的推导过程，如下图中蓝色箭头所示，
在这里插入图片描述
而对于反向传播实际上等效于复合函数求导，反向传播过程如下图中的红色箭头所示：

逻辑回归模型的反向传播推导过程如下：

为方便说明，先讨论一个样本,由上图及微积分中的链式法则可知：

$\frac{\partial L}{\partial w} = \frac{\partial L}{\partial a} \frac{\partial a}{\partial z} \frac{\partial z}{\partial w}$
$\frac{\partial L}{\partial b} = \frac{\partial L}{\partial a} \frac{\partial a}{\partial z} \frac{\partial z}{\partial b}$

1.已知 $L (a, y) = - [y l o g (a) + (1 - y) l o g (1 - a)]$ ,很容易算出 $\frac{\partial L}{\partial a} = - \frac{y}{a}+\frac{1-y}{1-a} = \frac{a-y}{a(1-a)} \tag{5}$
2.另外 $\frac{1}{1+e^{-z}}$ ，则有 $\frac{\partial a}{\partial z} = a(1-a) \tag{6}$
3.还有 $z = w_1x_1+w_2x_2+b$ ,故 $\frac{\partial z}{\partial w}=[x_1, x_2] \tag{7}$

同理有 $\frac{\partial z}{\partial b} = 1 \tag{8}$

通过(5)~(8)式得出对于单个样本有:
$\frac{\partial L}{\partial w} =\frac{\partial L}{\partial a} \frac{\partial a}{\partial z} \frac{\partial z}{\partial w} = \frac{a-y}{a(1-a)} a(1-a)x \\= (a-y)x$

$\frac{\partial L}{\partial b} =\frac{\partial L}{\partial a} \frac{\partial a}{\partial z} \frac{\partial z}{\partial b} = \frac{a-y}{a(1-a)} a(1-a) \\ = (a-y)$

对于所有样本则有如下（9）（10）公式所示：

给定一组逻辑回归模型输入矩阵 X
我们通过计算得到 $\sigma(w^T X + b) = (a^{(0)}, a^{(1)}, ..., a^{(m-1)}, a^{(m)})$
然后我们可以计算逻辑回归模型的损失函数 $-\frac{1}{m}\sum_{i=1}^{m}y^{(i)}\log(a^{(i)})+(1-y^{(i)})\log(1-a^{(i)})$
根据上面(5)(6)(7)(8)公式的推导出
$dw=\frac{\partial J}{\partial w} = \frac{1}{m}X(A-Y)^T\tag{9}$
$db=\frac{\partial J}{\partial b} = \frac{1}{m} \sum_{i=1}^m (a^{(i)}-y^{(i)})\tag{10}$

根据（9）（10）公式得到的dw和db，模型会对参数进行一次更新：
$w'=w-\alpha{dw}$
$b'=b-\alpha{db}$
得到w’和b’重新进行前向传播，得到新的输出值，代价函数，如此循环…

因此，从以上的推理分析来看，深度神经网络的训练计算过程我们可以这样来理解：

对于给定的输入X及其标签Y，我们首先给模型初始化设置一组参数W和b，学习速率 $\alpha$
模型根据参数对输入X进行计算，得到预测值 $\hat Y$
通过标签Y和预测值 $\hat Y$ ，我们计算得到模型本次输出的损失函数J，至此这是模型的一次前向传播过程
很明显，模型不可能只进行一次训练就能让预测值 $\hat Y$ 十分接近标签值Y，我们需要将不断地减小损失函数J，而让函数曲线递减，用微积分的观念理解是不断地给损失函数一个递减量dJ，理解到这儿后，我们可以联想到复合函数的求导概念，要想损失函数在下一次输出时变换一个递减量dJ，我们只需要更新下参数w和b的值即可，而反向传播就是为了计算得出参数W和b在下一次训练需要的变化量dw和db,所以根据公式（9）（10）,模型得到新的参数w’和b’，这样模型可以进行新的一次迭代，如此反复，指的模型的损失函数值达到我们可接受的范围为止。

Python中的广播机制（Broadcasting）：如果你有一个mn的矩阵，让它加减乘除一个1n的矩阵，它会被复制m次，成为一个mn的矩阵，然后再逐元素地进行加减乘除操作。同样地对m1的矩阵成立，广播机制可以减少我们的代码量，特别是for循环,在深度学习编程中我们要遵循的一条重要规则是：无论何时，尽可能地避免显示地使用for循环。
在这里插入图片描述
广播机制在深度学习函数构建中应用得很广，比如说我们在逻辑回归函数中，激活函数z = wT * X + b, b是一个数而前面的wT * X是一个1*n的矩阵，由于python这种机制，不需要我们为b构建向量，这就减轻了代码量。

注意：Python和numpy中矩阵的元素乘法用a*b表示，而矩阵的乘法运算用np.dot(a,b)表示

黄水生

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
吴恩达深度学习课程疑难点笔记系列-神经网络和深度学习-第2周

For one example x(i)x^{(i)}x(i):z(i)=wTx(i)+b(1)z^{(i)} = w^T x^{(i)} + b \tag{1}z(i)=wTx(i)+b(1)y^(i)=a(i)=sigmoid(z(i))(2)\hat{y}^{(i)} = a^{(i)} = sigmoid(z^{(i)})\tag{2}y^(i)=a(i)=sigmoid(z(i))...
复制链接

扫一扫

专栏目录