3.1 神经网络概述(Neural Network Overview )
![](https://i-blog.csdnimg.cn/blog_migrate/fadee702ad79db501c02fe4fa843362f.png)
(神经网络中,我们要反复计算a和z,最终得到最后的loss function)
![](https://i-blog.csdnimg.cn/blog_migrate/2987d32c58f0098429dec1e2fc05797d.png)
3.2 神经网络的表示(Neural Network Representation)
![](https://i-blog.csdnimg.cn/blog_migrate/4c69b02da4284862683fd9dc4fc2717f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/fffe203bbcefc4f19f4923971078a288.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4199880f07940b5e8fdd2442556d0be6.png)
3.3 计算一个神经网络的输出(Computing a Neural Network's output )
![](https://i-blog.csdnimg.cn/blog_migrate/bb7c2a1cc620ed7a8400751b1a186fc8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/74240ff67ba25c2b93e02b247662eb50.png)
向量化计算:
![](https://i-blog.csdnimg.cn/blog_migrate/4fc754c46171506169f8b4d8e47231c6.png)
详细过程见下: 公式 3.10:
![](https://i-blog.csdnimg.cn/blog_migrate/a752deb9a517749fe1b4a323eeebd17f.png)
(W---4x3)
![](https://i-blog.csdnimg.cn/blog_migrate/fbc0135b6b6f7d365e2f4d51f18b3f35.png)
3.4 多样本向量化(Vectorizing across multiple examples )
![](https://i-blog.csdnimg.cn/blog_migrate/87c8bf2006bb591743404034a0c38462.png)
![](https://i-blog.csdnimg.cn/blog_migrate/cac2418828c668c6c181205bb7b815d6.png)
所以横向矩阵A会扫过不同的训练样本,竖向是矩阵A中的不同指标。
3.5 向 量 化 实 现 的 解 释 (Justification for vectorized implementation)
![](https://i-blog.csdnimg.cn/blog_migrate/b22e1aa2d9d8ea07e86e95c5b8697cb7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5189268755e1a8e7464d7a66d0b33618.png)
3.6 激活函数 (Activation functions)
-
tanh函数
![](https://i-blog.csdnimg.cn/blog_migrate/c1069967d652b8c2b901410c648b4e88.png)
![](https://i-blog.csdnimg.cn/blog_migrate/33025418c3966e85ea14bc2cdea49139.png)
-
修正线性单元的函数(ReLu)(默认选项!)
![](https://i-blog.csdnimg.cn/blog_migrate/7d323dbf773d240b42323a62c75ee274.png)
-
如果输出是 0、1 值(二分类问题),则输出层选择 sigmoid 函数,然后其它的所有单元都选择 Relu 函数。
-
这是很多激活函数的默认选择,如果在隐藏层上不确定使用哪个激活函数,那么通常会使用 Relu 激活函数。有时,也会使用 tanh 激活函数,但 Relu 的一个缺点是:当z是负值的时候,导数等于 0。
-
这里也有另一个版本的 Relu 被称为 Leaky Relu。当z是负值时,这个函数的值不是等于 0,而是轻微的倾斜,如图。这个函数通常比 Relu 激活函数效果要好,尽管在实际中 Leaky ReLu 使用的并不多。
![](https://i-blog.csdnimg.cn/blog_migrate/50553e3d455aa1300fff453cab449d8d.png)
快速概括一下不同激活函数的过程和结论。
- sigmoid 激活函数:除了输出层是一个二分类问题基本不会用它。
- tanh 激活函数:tanh 是非常优秀的,几乎适合所有场合。
- ReLu 激活函数:最常用的默认函数,,如果不确定用哪个激活函数,就使用 ReLu
- Leaky ReLu: 公式 3.23: 𝑏 = max(0.01z, z)
3.8 激活函数的导数 (Derivatives of activation functions)
1) sigmoid activation function
![](https://i-blog.csdnimg.cn/blog_migrate/382bea567a4887c46a5d2b48d77d7000.png)
( g' (z) = a(1 - a) )
2) Tanh activation function
![](https://i-blog.csdnimg.cn/blog_migrate/a59739116d5be25c8a92da40d62e3f6f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f93a24b3d6656e13b50be9eca0b83a5.png)
(g ' (z) = 1 - a^2 )
3) Rectified Linear Unit (ReLU)
![](https://i-blog.csdnimg.cn/blog_migrate/b5247a4576f15ab61f6e3f652dc0b487.png)
4) Leaky linear unit (Leaky ReLU)
![](https://i-blog.csdnimg.cn/blog_migrate/2ed965a4beccd558efc734e7313d4b98.png)
3.9 神经网络的梯度下降 (Gradient descent for neural networks)
![](https://i-blog.csdnimg.cn/blog_migrate/45099eb3cb6c05f9b65b0ed21a8970b8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a71ea96b222d61350917d6fcdb7436.png)
![](https://i-blog.csdnimg.cn/blog_migrate/0add639c01aba9f531bb7ce7814766cb.png)
3.10 直观理解反向传播 (Backpropagation intuition)
![](https://i-blog.csdnimg.cn/blog_migrate/9d463e321d6ba3b4a4588a012ec9dbb3.png)
![](https://i-blog.csdnimg.cn/blog_migrate/00449a331a485dd5522f83267f43af84.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f14d75bdb420d8873426fcdb050ab054.png)
![](https://i-blog.csdnimg.cn/blog_migrate/afbd76d1a1e0f07661a19216ffc624d7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/01e99e44979e471bc0f74fc35d87c414.png)
3.11 随机初始化 (Random+Initialization)
![](https://i-blog.csdnimg.cn/blog_migrate/13b351ccafaf0e3bd5ccb9aa632eaa85.png)
一次迭代后同样的表达式结果仍然是相同的,即隐含单元仍是对称的。通过推导,两次、三次、无论多少次迭代,不管你训练网络多长时间,隐含单元仍然计算的是同样的函数。没有意义。
![](https://i-blog.csdnimg.cn/blog_migrate/a5cb874cf67965fb3216396b49e01db6.png)
本周总结
-
如何设立单隐层神经网络
-
随机初始化参数
-
正向传播计算预测值
-
计算导数,结合反向传播应用在梯度下降