BP神经网络深度学习--吴恩达学习笔记（四）

最新推荐文章于 2024-08-09 11:06:54 发布

南楼_lou

最新推荐文章于 2024-08-09 11:06:54 发布

阅读量109

点赞数 1

分类专栏：深度学习文章标签：深度学习神经网络学习

本文链接：https://blog.csdn.net/m0_70516521/article/details/129859807

版权

深度学习专栏收录该内容

6 篇文章 2 订阅

订阅专栏

18. 神经网络的表示：

（1）我们有输入特征𝑥1、𝑥2、𝑥3，它们被竖直地堆叠起来，这叫做神经网络的输入层。它包含了神经网络的输入；然后这里有另外一层我们称之为隐藏层（图中四个结点）。最后一层只由一个结点构成，而这个只有一个结点的层被称为输出层，它负责产生预测值。解释隐藏层的含义：在一个神经网络中，当你使用监督学习训练它的时候，训练集包含了输入𝑥也包含了目标输出𝑦，所以术语隐藏层的含义是在训练集中，这些中间结点的准确值我们是不知道到的，也就是说你看不见它们在训练集中应具有的值。你能看见输入的值，你也能看见输出的值，但是隐藏层中的东西，在训练集中你是无法看到的。所以这也解释了词语隐藏层，只是表示你无法在训练集中看到他们。

（2）符号惯例：可代替的记号𝑎[0]可以用来表示输入特征。𝑎表示激活的意思，它意味着网络中不同层的值会传递到它们后面的层中，输入层将𝑥传递给隐藏层，所以我们将输入层的激活值称为𝑎[0]；下一层即隐藏层也同样会产生一些激活值，那么我将其记作𝑎[1]，所以具体地，这里的第一个单元或结点我们将其表示为𝑎1[1]，第二个结点的值我们记为𝑎2[1]以此类推。最后输出层将产生某个数值𝑎，它只是一个单独的实数，所以的𝑦^值将取为𝑎[2]。

（3）第一惯例是当我们计算网络的层数时，输入层是不算入总层数内，所以隐藏层是第一层，输出层是第二层。第二个惯例是我们将输入层称为第零层，所以在技术上，这仍然是一个三层的神经网络，因为这里有输入层、隐藏层，还有输出层。但是在传统的符号使用中，如果你阅读研究论文或者在这门课中，你会看到人们将这个神经网络称为一个两层的神经网络，因为我们不将输入层看作一个标准的层。

19. 计算一个神经网络的输出：

（1）神经网络的计算：逻辑回归的计算有两个步骤，首先你按步骤计算出𝑧，然后在第二步中你以 sigmoid 函数为激活函数计算𝑧（得出𝑎），一个神经网络只是这样子做了好多次重复计算。

（2）向量化计算：向量化的过程是将神经网络中的一层神经元参数纵向堆积起来，例如隐藏层中的𝑤纵向堆积起来变成一个(4,3)的矩阵，用符号𝑊[1]表示。另一个看待这个的方法是我们有四个逻辑回归单元，且每一个逻辑回归单元都有相

对应的参数——向量𝑤，把这四个向量堆积在一起，你会得出这 4×3 的矩阵。

20. 多样本向量化

（1）𝑎[2](𝑖)，(𝑖)是指第𝑖个训练样本，而[2]是指第二层。

（2）这种符号其中一个作用就是，可以通过训练样本来进行索引。这就是水平索引对应于不同的训练样本的原因，这些训练样本是从左到右扫描训练集而得到的。在垂直方向，这个垂直索引对应于神经网络中的不同节点。当垂直扫描，是索引到隐藏单位的数字。当水平扫描，将从第一个训练示例中从第一个隐藏的单元到第二个训练样本，第三个训练样本……直到节点对应于第一个隐藏单元的激活值，且这个隐藏单元是位于这𝑚个训练样本中的最终训练样本。从水平上看，矩阵𝐴代表了各个训练样本。从竖直上看，矩阵𝐴的不同的索引对应于不同的隐藏单元。对于矩阵𝑍，𝑋情况也类似，水平方向上，对应于不同的训练样本；竖直方向上，对应不同的输入特征，而这就是神经网络输入层中各个节点。

21. 激活函数

（1）tanh函数：

（2）所以，在不同的神经网络层中，激活函数可以不同。为了表示不同的激活函数，在不同的层中，使用方括号上标来指出𝑔上标为[1]的激活函数，可能会跟𝑔上标为[2]不同。方括号上标[1]代表隐藏层，方括号上标[2]表示输出层。

（3）优缺点：sigmoid 函数和 tanh 函数两者共同的缺点是，在𝑧特别大或者特别小的情况下，导数的梯度或者函数的斜率会变得特别小，最后就会接近于 0，导致降低梯度下降的速度。两者的优点是：第一，在𝑧的区间变动很大的情况下，激活函数的导数或者激活函数的斜率都会远大于0，在程序实现就是一个 if-else 语句，而 sigmoid 函数需要进行浮点四则运算，在实践中，使用 ReLu 激活函数神经网络通常会比使用 sigmoid 或者 tanh 激活函数学习的更快。第二，sigmoid 和 tanh 函数的导数在正负饱和区的梯度都会接近于 0，这会造成梯度

弥散，而 Relu 和 Leaky ReLu 函数大于 0 部分都为常数，不会产生梯度弥散现象。(同时应该注意到的是，Relu 进入负半区的时候，梯度为 0，神经元此时不会训练，产生所谓的稀疏性，而 Leaky ReLu 不会有这问题) 𝑧在 ReLu 的梯度一半都是 0，但是，有足够的隐藏层使得 z 值大于 0，所以对大多数的训练数据来说学习过程仍然可以很快。

（4）在机器学习另一个很流行的函数是：修正线性单元的函数（ReLu），𝑎 = 𝑚𝑎𝑥(0, 𝑧) 所以，只要𝑧是正值的情况下，导数恒等于 1，当𝑧是负值的时候，导数恒等于 0。从实际上来说，当使用𝑧的导数时，𝑧=0 的导数是没有定义的。但是当编程实现的时候，𝑧的取值刚好等于 0.00000001，这个值相当小，所以，在实践中，不需要担心这个值，𝑧是等于 0 的时候，假设一个导数是 1 或者 0 效果都可以。

（5）选择激活函数的经验法则：如果输出是 0、1 值（二分类问题），则输出层选择 sigmoid 函数，然后其它的所有单元都选择 Relu 函数。这是很多激活函数的默认选择，如果在隐藏层上不确定使用哪个激活函数，那么通常会使用 Relu 激活函数。有时，也会使用 tanh 激活函数，但 Relu 的一个优点是：当𝑧是负值的时候，导数等于 0。这里也有另一个版本的 Relu 被称为 Leaky Relu。当𝑧是负值时，这个函数的值不是等于 0，而是轻微的倾斜。这个函数通常比 Relu 激活函数效果要好，尽管在实际中 Leaky ReLu 使用的并不多。

（6）不能用线性激活函数，唯一可用通常就是输出层。

22. 随机初始化：

（1）对于逻辑回归，把权重初始化为0 当然也是可以的。但是对于一个神经网络，如果你把权重或者参数都初始化为 0，那么梯度下降将不会起作用。

（2）生成高斯分布：

我们通常倾向于初始化为很小的随机数。因为如果你用 tanh 或者 sigmoid 激活函数，或者说只在输出层有一个 Sigmoid，如果（数值）波动太大，当你计算激活值时 𝑧[1] = 𝑊[1]𝑥 + 𝑏[1] , 𝑎[1] = 𝜎(𝑧[1]) = 𝑔[1](𝑧[1])如果𝑊很大，𝑧就会很大。𝑧的一些值𝑎就会很大或者很小，因此这种情况下你很可能停在 tanh/sigmoid 函数的平坦的地方(见图 3.8.2)，这些地方梯度很小也就意味着梯度下降会很慢，因此学习也就很慢。

事实上有时有比 0.01 更好的常数，当你训练一个只有一层隐藏层的网络时（这是相对浅的神经网络，没有太多的隐藏层），设为 0.01 可能也可以。但当你训练一个非常非常深的神经网络，你可能会选择一个不同于的常数而不是 0.01，但是无论如何它通常都会是个相对小的数。

南楼_lou

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
BP神经网络深度学习--吴恩达学习笔记（四）

在一个神经网络中，当你使用监督学习训练它的时候，训练集包含了输入𝑥也包含了目标输出𝑦，所以术语隐藏层的含义是在训练集中，这些中间结点的准确值我们是不知道到的，也就是说你看不见它们在训练集中应具有的值。但是当编程实现的时候，𝑧的取值刚好等于 0.00000001，这个值相当小，所以，在实践中，不需要担心这个值，𝑧是等于 0 的时候，假设一个导数是 1 或者 0 效果都可以。的意思，它意味着网络中不同层的值会传递到它们后面的层中，输入层将𝑥传递给隐藏层，所以我们将输入层的激活值称为𝑎[0]；
复制链接

扫一扫