【DL-吴恩达-神经网络与深度学习-03&04】浅层神经网络与深层神经网络

最新推荐文章于 2022-10-06 01:21:14 发布

一只干巴巴的海绵

最新推荐文章于 2022-10-06 01:21:14 发布

阅读量717

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/Hanx09/article/details/105862539

版权

深度学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

浅层神经网络

神经网络

神经元
神经元：线性运算+非线性运算
在这里插入图片描述
神经网络的表示

神经网络及符号定义
- 隐藏层、输出层计入层数，输入层不计入层数，下图的神经网称为两层神经网络或单隐层神经网络
- 上标方括号内数字表示所在的层数，上标圆括号表示数据，下标表示

前向计算

单个样本（隐藏层）
- 分量形式， $x=[x_1,x_2,x_3]^T$
- 向量形式，
  $,\quad$
  $z^{[1]}=W^{[1]}x+b^{[1]},\quad a^{[1]}=\sigma(z^{[1]})$
$m$ 个样本（隐藏层和输出层）
- 分量形式
- 向量形式

反向传播
在这里插入图片描述

单个样本
根据之前逻辑回归模型中梯度下降的推导，容易写出，
$\begin{aligned} &dz^{[2]}=a^{[2]}-y\\ &dW^{[2]}=dz^{[2]}a^{[1]T}\\ &db^{[2]}=dz^{[2]} \end{aligned}$
对于隐藏层，
$\begin{aligned} &dz^{[1]}=dz^{[2]}\frac{\partial z^{[2]}}{\partial a^{[1]}}\frac{\partial a^{[1]}}{\partial z^{[1]}}=W^{[2]T}dz^{[2]}*g^{[1]'}(z^{[1]})\\ \\ &dW^{[1]}=dz^{[1]}x^T\\ &db^{[1]}=dz^{[1]} \end{aligned}$
多个样本，向量化

随机初始化

权重不可初始化为0

对于逻辑回归，把权重初始化为0当然也是可以的。
对于一个神经网络，如果你把权重或者参数都初始化为0，那么梯度下降将不会起作用。

如果参数初始化为0，对任何样本，总是有 $a_1^{[1]}=a_1^{[1]}$ ，这两个激活单元就会一样，因为两个隐含单元计算同样的函数，这会导致，当做反向传播计算时， $dz_1^{[1]}=dz_1^{[2]}$ 。一次迭代后同样的表达式结果仍然是相同的，即隐含单元仍是对称的，不管训练网络多长时间，隐含单元仍然计算的是同样的函数，因此这种情况下超过1个隐含单元也没什么意义，因为他们计算同样的东西。

随机初始化权重
在这里插入图片描述

$b$ 没有对称的问题，可以初始化为0
乘上一个很小的常数0.01（或其他一个较小的数）将参数初始化为很小的随机数：如果使用tanh或Sigmoid函数，当 $W$ 很大时， $z$ 就会很大，这种情况可能会停在tanh/Sigmoid函数的平坦地方（梯度很小）。

激活函数

几种激活函数
1. Sigmoid函数
$g(z)=\sigma(z)=\frac{1}{1-e^{-z}}$

在这里插入图片描述

导数
$g'(z)=\frac{\partial}{\partial z}g(z)=g(z)(1-g(z))$
当 $z = 10$ 时， $g(z)\approx1$ ， $g'(z)\approx0$ ；当 $z = - 10$ 时， $g(z)\approx0$ ， $g'(z)\approx0$ ；当 $z = 0$ 时， $g(z)=\frac{1}{2}$ ， $g'(z)=\frac{1}{4}$
除了二分类场景，现在几乎不用Sigmoid函数
缺点：当 $z$ 很大或很小时，导数趋于0，梯度下降效率低

2. tanh函数
$g(z)=tanh(z)=\frac{e^z-e^{-z}}{e^z-e^{-z}}$

在这里插入图片描述

导数
$g'(z)=1-g(z)^2$
$g'(z)=\frac{\partial}{\partial z}g(z)=g(z)(1-g(z))$
当 $z = 10$ 时， $g(z)\approx1$ ， $g'(z)\approx0$ ；当 $z = - 10$ 时， $g(z)\approx-1$ ， $g'(z)\approx0$ ；当 $z = 0$ 时， $g (z) = 0$ ， $g^{'} (z) = 1$
tanh函数几乎Sigmoid函数好
tanh函数介于-1到1之间，平均值为0，相当于总是将数据中心化为0
缺点：当 $z$ 很大或很小时，导数趋于0，梯度下降效率低

3. ReLU函数
$a = m a x (0, z)$

在这里插入图片描述

导数
$g'(z)=\begin{cases} 0,\quad z<0\\ 1,\quad z>0\\ undefined,\quad z=0 \end{cases}$
$z < 0$ 时导数为0， $z > 0$ 时导数为1， $z = 0$ 处不可导，可为其赋值，如0或1
现经常使用

4. ReLU函数
$a = m a x (0.01 z, z)$

在这里插入图片描述

导数
$g'(z)=\begin{cases} 0.01,\quad z<0\\ 1,\quad z>0\\ undefined,\quad z=0 \end{cases}$
$z < 0$ 时导数较小，为0.01， $z > 0$ 时导数较大，为1， $z = 0$ 处不可导，可为其赋值，如0或1
通常比ReLU好，但实际中较少使用

为什么需要非线性的激活函数

如果隐藏层均采用线性激活函数，无论多少层，无论每层多少个神经单元，一直做的都是线性运算，最终做的也是线性运算，相当于没有隐藏层，因此，不能在隐藏层使用线性激活函数。
只有一种情形可以使用线性激活函数：回归问题的输出层

编程作业：带有一个隐藏层的平面数据分类

深层神经网络

在这里插入图片描述
符号定义

$L$ ：神经网络的层数（不包括输入层）， $L = 4$
$n^{[l]}$ ：第 $l$ 层的神经元个数，输入层为第0层， $n^{[0]}=n_x=3, n^{[1]}=5, n^{[2]}=5, n^{[3]}=3, n^{[4]}=n^{[L]}=1$
$a^{[l]}=g^{[l]}(z^{[l]})$ ：第 $l$ 层的激活函数
$w^{[l]},b^{[l]}$ ： $z^{[l]}$ 的权重、偏置

前向传播Forward propagation

单个样本的某一层：Input： $a^{[l-1]}$ ，output： $a^{[l]}$ ，cache： $z^{[l]}(w^{[l]},b^{[l]})$
$\forall l\in L$
$\begin{aligned} &z^{[l]}=w^{[l]}a^{[l-1]}+b^{[l]}\\ &a^{[l]}=g^{[l]}(z^{[l]}) \end{aligned}$
整个训练集，向量化

$\begin{aligned} for\quad &l =1 \quad to\quad L:\\ &Z^{[l]}=W^{[l]}A^{[l-1]}+b^{[l]}\\ &A^{[l]}=g^{[l]}(Z^{[l]})\\ \hat{Y}=&A^{[L]} \end{aligned}$

反向传播

单个样本的某一层：Input： $da^{[l]}$ ，output： $da^{[l-1]},dw^{[l]},db^{[l]}$
$\forall l\in L$
$\begin{aligned} &dz^{[l]}=da^{[l]}*g^{[l]'}(z^{[l]})\\ &dw^{[l]}=dz^{[l]}a^{[l-1]}\\ &db^{[l]}=dz^{[l]}\\ &da^{[l-1]}=w^{[l]T}dz^{[l]} \end{aligned}$
整个训练集，向量化（层之间没有办法向量化，要用for循环）
$\begin{aligned} &dZ^{[l]}=dA^{[l]}*g^{[l]'}(Z^{[l]})\\ &dW^{[l]}=\frac{1}{m}dZ^{[l]}A^{[l-1]}\\ &db^{[l]}=\frac{1}{m}np.sum(dZ^{[l]},axis=1,keepdims=True)\\ &dA^{[l-1]}=W^{[l]T}dZ^{[l]} \end{aligned}$

核对矩阵的维数
帮助检查代码正确性。

$W^{[l]}$ ： $n^{[l]},n^{[l-1]})$
$b^{[l]}$ ： $n^{[l]},1)$
$dW^{[l]}$ ： $n^{[l]},n^{[l-1]})$
$db^{[l]}$ ： $n^{[l]},1)$
$z^{[l]},a^{[l]}$ ： $n^{[l]},1)$
$Z^{[l]},A^{[l]}$ ： $n^{[l]},n^{[l-1]})$
$dZ^{[l]},dA^{[l]}$ ： $n^{[l]},n^{[l-1]})$

搭建深层神经网络块

第 $l$ 层
整个网络的一次正向传播与反向传播

为什么使用深层表示

每层神经网络的数学理解：用线性变换跟随着非线性变化，将输入空间投向另一个空间；
每层神经网络的物理理解：通过现有的不同物质的组合形成新物质。

1. 人脸识别情景
在这里插入图片描述
由像素组成菱角再组成五官最后到不同的人脸。每一层代表不同的不同的物质层面 (如分子层)。而每层的W存储着如何组合上一层的物质从而形成新物质。可以先把神经网络的第一层当作看图，然后去找这张照片的各个边缘。我们可以把照片里组成边缘的像素们放在一起看，然后它可以把被探测到的边缘组合成面部的不同部分

物质组成视角：神经网络的学习过程就是学习物质组成方式的过程。
增加节点数：增加同一层物质的种类，比如118个元素的原子层就有118个节点。
增加层数：增加更多层级，比如分子层，原子层，器官层，并通过判断更抽象的概念来识别物体。

深层学习为何要“Deep”

2. 电路理论
在这里插入图片描述

当使用浅网络计算时，需要一个大网络（通过网络中的逻辑门数量来度量大小）
- 根据不同的基本逻辑门，譬如与门、或门、非门。在非正式的情况下，这些函数都可以用相对较小，但很深的神经网络来计算，小在这里的意思是隐藏单元的数量相对比较小；
- （左图）假设要对输入特征计算异或或是奇偶性， $x_1 XOR x_2 XOR ... XOR x_n$ ，如果你画一个异或的树图，先要计算 $x_1$ ， $x_2$ 的异或，然后是 $x_3$ 和 $x_4$ ，……，这种树图对应网络的深度应该是 $O (l o g (n))$ ；
当使用深网络来计算时，只需要一个指数级小的网络
- 如果用浅一些的神经网络计算同样的函数，也就是说在不能用很多隐藏层时，但是需要成指数增长的单元数量才能达到同样的计算结果。
- （右图）如果只能用单隐层来计算的话，这就需要隐藏层的单元数呈指数增长才行，因为本质上来说需要列举 $2^n$ 种可能。

参数与超参数

超参数某种程度上决定了最终得到的参数
- 参数： $W^{[1]},b^{[1]},W^{[2]},b^{[2]},W^{[3]},b^{[3]}……$
- 超参数：学习率 $\alpha$ ，梯度下降法循环的次数iteration，隐藏层数目L，隐藏层单元数目 $n^{[l]}$ ，激活函数的选择
超参数的选择
- 今天的深度学习应用领域，还是很经验性的过程。应用深度学习领域，一个很大程度基于经验的过程，凭经验的过程通俗来说，就是试直到你找到合适的数值；
- 参数设定这个领域，深度学习研究还在进步中，所以可能过段时间就会有更好的方法决定超参数的值；
- 近来受深度学习影响，很多领域发生了变化，从计算机视觉到语音识别到自然语言处理到很多结构化的数据应用，比如网络广告、网页搜索、产品推荐等等；有些同一领域设置超参数的直觉可以推广，但有时又不可以，特别是那些刚开始研究新问题的人们应该去尝试一定范围内的结果如何，甚至那些用了很久的模型得学习率或是其他超参数的最优值也有可能会改变。