Deep Learning Specialization: Neural Networks and Deep Learning - 基本套路

最新推荐文章于 2022-11-06 11:35:15 发布

du00

最新推荐文章于 2022-11-06 11:35:15 发布

阅读量134

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/duh2so4/article/details/94316707

版权

笔记专栏收录该内容

16 篇文章 0 订阅

订阅专栏

学习笔记: Deep Learning Specialization: Neural Networks and Deep Learning - 基本套路

1. Forward Propagation （前向算损失）

$Z^{[l]}$ : Linear function
$Z^{[l]} = W^{[l]} A^{[l-1]} + b^{[l]}$

$A^{[l]} = g^{[l]}(Z^{[l]})$
$A^{[l}$ 是Activation函数的结果，注意 $A^{[0]} = X$ ， $X$ 是输入。

1.1 激活函数 $g^{[l]}$

课程中一共介绍了三种：

Sigmoid: 一般只用在二分类的输出层
$\text{sigmoid}(x) = \frac{1}{1 + e^{-x}}$
Tanh: 在0点附近的梯度比sigmoid大，作为激活函数几乎完全比sigmoid好
$\text{tanh}(x) = \frac{e^x - e{-x}}{e^x + e^{-x}}$
Relu: 大部分情况下应该选用（sigmoid/tanh在x较大/较小时，学习速度会大大下降）
$\text{Relu(z)} = \max(0, z)$

2. Cost

适用于二分类
$\frac{1}{m} \sum\limits_{i = 0}^{m} \large{(} \small y^{(i)}\log\left(a^{[2] (i)}\right) + (1-y^{(i)})\log\left(1- a^{[2] (i)}\right) \large{)} \small$

代码比公式简单

logprobs = Y * np.log(A_l) + (1 - Y) * np.log(1 - A_l)
cost = - np.sum(logprobs) / m

这里假定了最后一层是 $l$

3. Back Propagation (后向算梯度）

设最后一层是 $l$ ， $i$ 是中间任意一层

$dW^{[l]} = \frac{\partial \mathcal{L} }{\partial W^{[l]}} = \frac{1}{m} dZ^{[l]} A^{[l-1] T}$
$db^{[l]} = \frac{\partial \mathcal{L} }{\partial b^{[l]}} = \frac{1}{m} \sum_{i = 1}^{m} dZ^{[l](i)}$
$dA^{[l-1]} = \frac{\partial \mathcal{L} }{\partial A^{[l-1]}} = W^{[l] T} dZ^{[l]}$

考虑到最后一层在二分类时使用的是sigmoid激活函数，也就是
$dZ^{[l]} = A^{[l]} - Y$

4. 初始化

随机即可 $W$ 部分不能初始化为0，初始化为零后会使网络退化至线性。

$W$ 随机初始化至一个比较小的值，比如np.random.randn(n_h, n_x) * 0.01
$b$ 初始化为0

在系列课第二门中会专门讲到这个问题，这里了解到这些也足够了。

du00

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Deep Learning Specialization: Neural Networks and Deep Learning - 基本套路

Deep Learning Specialization: Neural Networks and Deep Learning - 基本套路1. Forward Propagation （前向算损失）Z[l]Z^{[l]}Z[l]: Linear functionZ[l]=W[l]A[l−1]+b[l]Z^{[l]} = W^{[l]} A^{[l-1]} + b^{[l]}Z[l]=W...
复制链接

扫一扫