C1 - week3 - part6 神经网络的梯度下降 Gradient descent for neural networks

kkkobe7

已于 2022-07-13 11:00:50 修改

阅读量125

点赞数 1

文章标签：神经网络机器学习深度学习

于 2022-06-01 06:58:44 首次发布

本文链接：https://blog.csdn.net/apple_52071864/article/details/125076684

版权

一、梯度下降

我们之前介绍的的单层神经网络会有 $W^{[1]},b^{[1]}, W^{[2]},b^{[2]}$ 这些参数，还有 $n_{x}$ 表示输入特征的个数， $n_{[1]}$ 表示隐藏单元个数， $n^{[2]}$ 表示输出单元个数。

矩阵 $W^{[1]}$ 的维度就是 $n^{[1]}, n^{[0]})$ ， $b^{[1]}$ 就是 $n^{[1]}$ 维列向量，可以写成 $n^{[1]}, 1)$ 。矩阵 $W^{[2]}$ 的维度就是 $n^{[2]}, n^{[1]})$ ， $b^{[2]}$ 的维度就是 $n^{[2]},1)$ 维。

神经网络还有一个成本函数，假设你在做二分类任务，那么你的成本函数等于
$Function:J(W^{[1]}, b^{[1]}, W^{[2]}, b^{[2]})=\frac{1}{m}\sum_{i=1}^{m}L(\hat{y}, y)$
训练参数需要做梯度下降，在训练神经网络的时候，随机初始化参数很重要，而不是全部初始化为零。当你参数初始化完成后，每次梯度下降都会循环计算以下预测值：
$\hat{y}^{[i]},(i = 1, 2, \cdots, m) \\ dW^{[1]} = \frac{dJ}{dW^{[1]}}, db^{[1]} = \frac{dJ}{db^{[1]}} \\ dW^{[2]} = \frac{dJ}{dW^{[2]}}, db^{[1]} = \frac{dJ}{db^{[2]}} \\$
然后更新参数
$W^{[1]} = W^{[1]} - \alpha dW^{[1]}, b^{[1]} = b^{[1]} - \alpha db^{[1]} \\ W^{[2]} = W^{[2]} - \alpha dW^{[2]}, b^{[2]} = b^{[2]} - \alpha db^{[2]}$
正向传播方程如下：
$\\ (1)z^{[1]} = W^{[1]}x+b^{[1]} \\ (2)a^{[1]} = \sigma(z^{[1]}) \\ (3)z^{[2]} = W^{[2]}a^{[1]} + b^{[2]} \\ (4)a^{[2]} = g^{[2]}(z^{[2]}) = \sigma(z^{[2]})$
反向传播方程如下：
$(1)dz^{[2]} = A^{[2]} - Y, Y = [y^{[1]}, y^{[2]}, ..., y^{[m]}] \\ (2)dW^{[2]} = \frac{1}{m}dz^{[2]}A^{[1]T} \\ (3)db^{[2]} = \frac{1}{m}np.sum(dz[2], axis = 1, keepdims = Ture) \\ (4)dz^{[1]} = W^{[2]T}dz^{[2]} * g^{[1]'}*z^{[1]} \\ (5)dW^{[1]} = \frac{1}{m}dz^{[1]}x^T \\ (6)db^{[1]} = \frac{1}{m}np.sum(dz^{[1]}, axis = 1, keepdims = True)$
上述为反向传播的步骤。注：所有样本进行过向量化， $Y$ 是 $\times m$ 的矩阵，这里 np.sum是python的numpy命令，axis = 1表示水平相加求和， keepdims是防止python输出那些古怪的秩数 $(n,)$ ，加上这个确保矩阵 $db^{[2]}$ 这个向量输出的维度为 $(n, 1)$ 这样标准的形式。

目前为止，我们计算的都和Logistic回归十分相似，但当你开始计算反向传播时，你需要计算隐藏层函数的导数，输出在使用sigmoid函数进行二元分类，这里是进行逐个元素乘积，因为 $W^{[2]T}dz^{[2]}$ 和 $z^{[1]})$ 这两个都为 $n^{[1]}, m)$ 矩阵。