《吴恩达深度学习》01神经网络和深度学习（第3周浅层神经网络）

最新推荐文章于 2024-04-02 19:16:06 发布

ZJ_Windy_Feng

最新推荐文章于 2024-04-02 19:16:06 发布

阅读量170

点赞数 1

分类专栏：深度学习理论学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fzj0121/article/details/105191132

版权

深度学习理论学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

01. 神经网络和深度学习

第三周浅层神经网络

3.1 神经网络概览

$z^{[i]}$ 表示第i层

3.2 神经网络表示

神经网络的各部分名称

输入层，隐藏层，输出层
在计算神经网络层数时，仅计算隐藏层和输出层，不计算输入层。

3.3 计算神经网络的输出

隐藏层某个节点示意图

$z^{[1]}_1 = w^{[1]T}_1x+b^{[1]}_1$
$a^{[1]}_1 = \sigma(z^{[1]}_1)$
向量化计算
$z^{[1]} = w^{[1]T}x+b^{[1]}$
$a^{[1]} = \sigma(z^{[1]})$

3.4 多个例子中的向量化

$a^{[i](j)}$ 表示第i层第j个样本
令 $X=[x^{(1)}, x^{(2)}, \cdots, x^{(m)}]$ ，则向量化的计算公式为：
$z^{[1]} = w^{[1]}X+b^{[1]}$
$A^{[1]}=\sigma(z^{[1]})$
$z^{[2]}=w^{[2]}A^{[1]}+b^{[2]}$
$A^{[2]}=\sigma(z^{[2]})$

3.5 向量化实现的解释

$Z^{[1]}=w^{[1]}X$ 的示意图
非向量化代码和向量化代码对比总结

3.6 激活函数

激活函数 $g(z^{[i]})$
(1) $tanh(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}}$ 几乎总是比sigmoid函数好（除了输出层）

缺点：当 $z$ 很大或很小时，tanh和sigmoid斜率会很小，导致梯度下降法不好使
(2) ReLu函数 $m a x (0, z)$

缺点：当 $z$ 为负数时，导数为0 $\rightarrow$ 带有泄露的ReLu
总结对比

3.7 为什么需要非线性激活函数

如果是线性激活函数（或称为恒等激活函数），则输出值为输入值的线性组合。
只有在压缩的相关应用中会在隐藏层使用线性激活函数。

3.8 激活函数的导数

sigmoid函数
$\frac{d g(z)}{dz}=g(z)(1-g(z))$
优势：如果已经计算出了函数值，即可快速得到导数值
tanh函数
$\frac{d g(z)}{dz}=1-(g(z))^2$
优势：如果已经计算出了函数值，即可快速得到导数值
ReLU函数
$\frac{d g(z)}{dz}=0, z<0$
$\frac{d g(z)}{dz}=1, z\geq0$ （ $z = 0$ 处自行定义）
带有泄露的ReLU函数（ $m a x (0.01 z, z)$ ）
$\frac{d g(z)}{dz}=0.01, z<0$
$\frac{d g(z)}{dz}=1, z\geq0$ （ $z = 0$ 处自行定义）

3.9 神经网络的梯度下降法

正向传播
$z^{[1]}=w^{[1]}X+b^{[1]}$
$A^{[1]}=g^{[1]}(z^{[1]})$
$z^{[2]} = $
反向传播
$dz^{[2]}=A^{[2]}-Y$
$dw^{[2]}=\frac{1}{m}dz^{[2]}A^{[1]T}$
$db^{[2]}=\frac{1}{m}np.sum(dz^{[2]}, axis=1, keepdims =True)$ （最后一项为保证输出维度为(n,1)，如果没有最后一项，则输出为(n,)）
$dz^{[1]}=w^{[2]T}dz^{[2]}*g^{[1]'}(z^{[1]})$
$dw^{[1]}=\frac{1}{m}dz^{[1]}X^T$
$db^{[1]}=\frac{1}{m}np.sum(dz^{[1]}, axis=1, keepdims =True)$

3.11 随机初始化

若零初始化，则意味着节点完全相同，且对输出单元影响完全一样，则更新后，隐藏单元仍然相同，这样的隐藏单元没有意义。
通常意义下的初始化：
$w^{[1]}=np.random.randn((2,2))*0.01$
$b^{[1]}=np.zeros((2,1))$
常数需要设置较小，因为若是sigmoid或tanh函数，则太大的时候会梯度小，收敛慢。

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。