深度学习基础（三）：激活函数和损失函数

最新推荐文章于 2024-08-08 10:57:38 发布

刷街兜风

最新推荐文章于 2024-08-08 10:57:38 发布

阅读量1.2k

点赞数

分类专栏：机器学习深度学习

本文链接：https://blog.csdn.net/lyc_yongcai/article/details/73201179

版权

本文深入探讨了深度学习中的激活函数和损失函数。激活函数如sigmoid、tanh、ReLU及其变种（PReLU、LeakyReLU、ELU）提供了网络的非线性建模能力，其中ReLU及其变种因避免饱和性而被广泛应用。同时，介绍了损失函数的重要性，平方差函数是最常用的损失函数，但其他如交叉熵损失也在实际中发挥关键作用。

摘要由CSDN通过智能技术生成

这一部分来探讨下激活函数和损失函数。在之前的logistic和神经网络中，激活函数是sigmoid, 损失函数是平方函数。但是这并不是固定的。事实上，这两部分都有很多其他不错的选项，下面来一一讨论

3. 激活函数和损失函数

3.1 激活函数

关于激活函数，首先要搞清楚的问题是，激活函数是什么，有什么用？不用激活函数可不可以？答案是不可以。激活函数的主要作用是提供网络的非线性建模能力。如果没有激活函数，那么该网络仅能够表达线性映射，此时即便有再多的隐藏层，其整个网络跟单层神经网络也是等价的。因此也可以认为，只有加入了激活函数之后，深度神经网络才具备了分层的非线性映射学习能力。那么激活函数应该具有什么样的性质呢？

可微性：当优化方法是基于梯度的时候，这个性质是必须的。
单调性：当激活函数是单调的时候，单层网络能够保证是凸函数。
输出值的范围：当激活函数输出值是有限的时候，基于梯度的优化方法会更加稳定，因为特征的表示受有限权值的影响更显著;当激活函数的输出是无限的时候，模型的训练会更加高效，不过在这种情况小，一般需要更小的learning rate

从目前来看，常见的激活函数多是分段线性和具有指数形状的非线性函数