激活函数、损失函数及其优化方法总结_激活函数优化函数损失函数-CSDN博客

本文链接：https://blog.csdn.net/everyst/article/details/88184388

本文详细介绍了深度学习中的激活函数，包括sigmoid、tanh、ReLU系列以及ELU和Maxout，强调了激活函数的非线性、可微性和单调性。接着讨论了常用的损失函数，最后探讨了优化方法，如BGD、SGD、Momentum、Nesterov Momentum、AdaGrad、RMSProp及其变种，并分析了各种方法的优缺点和适用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.1 激活函数

　　关于激活函数，首先要搞清楚的问题是，激活函数是什么，有什么用？不用激活函数可不可以？答案是不可以。激活函数的主要作用是提供网络的非线性建模能力。如果没有激活函数，那么该网络仅能够表达线性映射，此时即便有再多的隐藏层，其整个网络跟单层神经网络也是等价的。因此也可以认为，只有加入了激活函数之后，深度神经网络才具备了分层的非线性映射学习能力。那么激活函数应该具有什么样的性质呢？

　　可微性：当优化方法是基于梯度的时候，这个性质是必须的。
　　单调性：当激活函数是单调的时候，单层网络能够保证是凸函数。
　　输出值的范围：当激活函数输出值是有限的时候，基于梯度的优化方法会更加稳定，因为特征的表示受有限权值的影响更显著;当激活函数的输出是无限的时候，模型的训练会更加高效，不过在这种情况小，一般需要更小的learning rate

　　从目前来看，常见的激活函数多是分段线性和具有指数形状的非线性函数