激活函数、损失函数及其优化方法总结

最新推荐文章于 2025-10-29 16:23:59 发布

转载最新推荐文章于 2025-10-29 16:23:59 发布 · 4.2k 阅读

文章标签：

#激活函数 #损失函数

深度学习专栏收录该内容

9 篇文章

订阅专栏

本文深入探讨了激活函数（如sigmoid、ReLU及其变种）的作用及特性，并详细介绍了多种优化方法（包括SGD、Momentum及Adam等），旨在帮助读者理解深度学习中的关键组件。

1.1 激活函数

　　关于激活函数，首先要搞清楚的问题是，激活函数是什么，有什么用？不用激活函数可不可以？答案是不可以。激活函数的主要作用是提供网络的非线性建模能力。如果没有激活函数，那么该网络仅能够表达线性映射，此时即便有再多的隐藏层，其整个网络跟单层神经网络也是等价的。因此也可以认为，只有加入了激活函数之后，深度神经网络才具备了分层的非线性映射学习能力。那么激活函数应该具有什么样的性质呢？

　　可微性：当优化方法是基于梯度的时候，这个性质是必须的。
　　单调性：当激活函数是单调的时候，单层网络能够保证是凸函数。
　　输出值的范围：当激活函数输出值是有限的时候，基于梯度的优化方法会更加稳定，因为特征的表示受有限权值的影响更显著;当激活函数的输出是无限的时候，模型的训练会更加高效，不过在这种情况小，一般需要更小的learning rate

　　从目前来看，常见的激活函数多是分段线性和具有指数形状的非线性函数

1.1.1 sigmoid

　　sigmoid 是使用范围最广的一类激活函数，具有指数函数形状，它在物理意义上最为接近生物神经元。此外，(0, 1) 的输出还可以被表示作概率，或用于输入的归一化，代表性的如Sigmoid交叉熵损失函数。

　　然而，sigmoid也有其自身的缺陷，最明显的就是饱和性。从上图可以看到，其两侧导数逐渐趋近于0

　　具有这种性质的称为软饱和激活函数。具体的，饱和又可分为左饱和与右饱和。与软饱和对应的是硬饱和, 即

f' (x) = 0 ， 当 | x | > c ， 其 中 c 为 常 数 。

　　此外，sigmoid函数的输出均大于0，使得输出不是0均值，这称为偏移现象，这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。

1.1.2 tanh

1.1.3 ReLU，P-ReLU, Leaky-ReLU

　　然而，随着训练的推进，部分输入会落入硬饱和区，导致对应权重无法更新。这种现象被称为“神经元死亡”。与sigmoid类似，ReLU的输出均值也大于0，偏移现象和神经元死亡会共同影响网络的收敛性。

　　针对在x<0的硬饱和问题，我们对ReLU做出相应的改进，使得

1.1.4 ELU

1.1.5 Maxout

2.1 损失函数

　　在之前的内容中，我们用的损失函数都是平方差函数，即

3.1优化方法

3.1.1BGD

　　即batch gradient descent. 在训练中,每一步迭代都使用训练集的所有内容. 也就是说,利用现有参数对训练集中的每一个输入生成一个估计输出

　　具体实现:
　　需要:学习速率
　　每步迭代过程:
　　　　1. 提取训练集中的所有内容

　　优点:
　　由于每一步都利用了训练集中的所有数据,因此当损失函数达到最小值以后,能够保证此时计算出的梯度为0,换句话说,就是能够收敛.因此,使用BGD时不需要逐渐减小学习速率

　　缺点:
　　由于每一步都要使用所有数据,因此随着数据集的增大,运行速度会越来越慢.

3.1.2 SGD

　　SGD全名 stochastic gradient descent，即随机梯度下降。不过这里的SGD其实跟MBGD(minibatch gradient descent)是一个意思,即随机抽取一批样本,以此为根据来更新参数.

　　具体实现:
　　需要:学习速率
　　每步迭代过程:
　　　　1. 从训练集中的随机抽取一批容量为m的样本

　　优点:
　　　　训练速度快,对于很大的数据集,也能够以较快的速度收敛.

　　缺点:
　　　　由于是抽取,因此不可避免的,得到的梯度肯定有误差.因此学习速率需要逐渐减小.否则模型无法收敛
　　　　因为误差,所以每一次迭代的梯度受抽样的影响比较大,也就是说梯度含有比较大的噪声,不能很好的反映真实梯度.

　　学习速率该如何调整:
　　　　那么这样一来,

3.1.3 Momentum

　　上面的SGD有个问题,就是每次迭代计算的梯度含有比较大的噪音. 而Momentum方法可以比较好的缓解这个问题,尤其是在面对小而连续的梯度但是含有很多噪声的时候,可以很好的加速学习.Momentum借用了物理中的动量概念,即前几次的梯度也会参与运算.为了表示动量,引入了一个新的变量v(velocity).v是之前的梯度的累加,但是每回合都有一定的衰减.

　　具体实现:
　　需要:学习速率
　　每步迭代过程:
　　　　1. 从训练集中的随机抽取一批容量为m的样本