神经网络与深度学习（三）- Shallow Neural Network

最新推荐文章于 2021-09-25 17:21:19 发布

mike112223

最新推荐文章于 2021-09-25 17:21:19 发布

阅读量4.5k

点赞数

分类专栏： deeplearning.ai课程学习笔记文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/mike112223/article/details/78058686

版权

本文详细介绍了浅层神经网络的结构，重点讨论了激活函数的作用，包括sigmoid、tanh、ReLU和Leaky ReLU，以及它们的优缺点。此外，还阐述了激活函数的导数和在前向传播与反向传播中的应用。最后，概述了建立神经网络的一般步骤，包括随机初始化参数和训练过程。

摘要由CSDN通过智能技术生成

第三篇主要讲述浅层神经网络的实现，其本质上是在第二篇逻辑回归的基础上，增加了一层隐藏层，这是为了推广到多层神经网络做铺垫

Neural Networks Representation

神经网路的构成这里不多赘述，在机器学习笔记中有相应的章节已经介绍过了，这里强调一点，也是让人更好理解，对于神经元，我们按下图拆分，其实一个神经元包含了两步操作，第一步是输入元的线性组合，第二步才是进行非线性处理。
这里写图片描述
对于本篇的浅层神经网络如下图左上所示。下图右为前向传播公式。对于参数上标进行说明，[]代表层数，[0]层是输入层，[1]层是隐藏层，[2]层是输出层。()代表的是样本标号。

下图为后向传播公式。

Activation functions

激活函数大家听的最多，一开始用的很多的应该是sigmoid函数，但其实神经网络的激活函数有很多，下面就是4种相对来说比较常用的激活函数，tanh，ReLU, Leaky ReLU.
这里写图片描述
那么它们的优点和缺点以及应用场景又是什么呢。

sigmoid

优点在于其值域为0～1，这非常切合概率模型的输出，即对于0，1分类，输出值在0～1，即可直接表示为其属于该类的概率，因此非常适合用于输出层。
缺点在于左右两段过早进入饱和，会导致梯度消失，梯度弥散，致使训练速度缓慢。

tanh

优点在于值域-1~1，输出具有0的均值，更好的center我们的数据，就好比我们在训练之前都会对原数据进行均值归一化。
缺点同sigmoid函数一样，具有训练缓慢的缺陷。

ReLU

优点在于，在大于0的时候，梯度恒定，不会出现梯度弥散的现象，训练速度快。
缺点在于，在小于0的时候，值全为0，无法训练。

Leaky ReLU

优点同ReLU，并且克服了小于0无法训练的问题。

总的来说，sigmoid在实际中，一般用于输出层，而其他三个函数一般都用于隐藏层，至于哪一种比较好，这个无法下准确的定论，得根据实际做出变化，一般在不知道用什么好的情况下，我们会优先选择ReLU。至于为什么明明Leaky ReLU更优于ReLU还要优先ReLU呢，是因为在实际操作中，大于0的神经元足够训练出结果了，ReLU的缺点并不明显。