简单的多层全连接前向网络-CSDN博客

本文链接：https://blog.csdn.net/tanixn/article/details/142487683

神经网络是受到模拟神经元的启发。一层神经网络的数学形式可以看作是一个线性运算加上一个激活函数。在脑科学中，一个神经元可以对输入进行不同的操作，可以是正向刺激（激活放大），也可以是反向抑制（激活变小）。因此，在激活函数的作用下，我们可以用一层神经网络作为分类器，正样本让激活函数激活变大，负样本让激活函数激活变小。

激活函数：

Sigmoid：

将实数输入转换为0~1之间的输出。将越大的负数转化到越接近与0，越大的正数转化到越接近于1。经典的逻辑回归就是一个使用了Sigmoid作为激活函数的一层神经网络。但是使用该激活函数容易造成梯度消失，其在接近0或者1时，梯度几乎变成0。

Tanh：

将输入映射到-1~1之间。是Sigmoid的变式。

ReLu：

这个激活函数将输入大于0的部分保留，小于0的部分变成0。可以极大地加速随机梯度下降法的收敛速度，且不存在梯度消失的问题。但是其训练时非常脆弱，比如一个很大的梯度经过ReLu激活函数时，更新参数后，会使得这个神经元不会对任何数据有激活现象。因为，该激活函数的本质是一个不可逆的过程，它会直接去掉输入小于0的部分。在实际操作中可以通过设置比较小的学习率来避免这个问题。在实际的训练过程中，这是最常用的。

LeakyReLu：

ReLu的变式。将输入小于0的部分不直接变为0，而是给一个很小的负的斜率。

Maxout：

该函数有ReLu的优点，同时避免了其训练脆弱的缺点。但是其参数加倍，导致模型的存储变大。

模型的表示能力与容量：

从数学的角度来解释神经网络，其就是由网络中的参数决定的函数簇。在1989年已经被证明，拥有至少一个隐藏层的神经网络可以逼近任何连续函数。而我们使用更多层神经网络的目的就是是为了获得更好的表现力，同时拥有更好的优化结果。理论上增加的网络层可以看作是一系列恒等变换的网络层，也就是说这些网络层对输入不做任何变换，这个深层的网络结构能够达到与浅层网络同样的效果。