激活函数、防止过拟合方法、加速训练方法、数据增强

最新推荐文章于 2024-07-06 21:27:32 发布

Tom Hardy

最新推荐文章于 2024-07-06 21:27:32 发布

阅读量9.1k

点赞数 7

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_29462849/article/details/80272768

版权

本文介绍了深度学习中的关键概念，包括激活函数（如sigmoid、ReLU及其变种）及其对网络非线性建模能力的影响，防止过拟合的常见方法（增加训练数据、DropOut、Batch Normalization和正则化），以及加速训练的技巧（动量、Nesterov动量、自适应学习率算法）。激活函数的选择对模型性能至关重要，防止过拟合能提升模型泛化能力，而加速训练策略则有助于提高模型训练效率。

摘要由CSDN通过智能技术生成

前言

关于深度学习，看了许久，但是一直没有找个时间把相关知识点总结下来，今天特意督促自己写下所学内容，如有错误，还望指出。

关于深度学习主要介绍以下几点：激活函数、防止过拟合方法、加速训练的方法

激活函数

深度学习中的激活函数主要有sigmoid、tanh、ReLu、Maxout函数等。激活函数的主要作用是提供网络的非线性建模能力。如果没有激活函数，那么该网络仅能够表达线性映射，此时即便有再多的隐藏层，其整个网络跟单层神经网络也是等价的。因此也可以认为，只有加入了激活函数之后，深度神经网络才具备了分层的非线性映射学习能力。一般来说激活函数应该具备以下性质：

可微性：当优化方法是基于梯度的时候，这个性质是必须的。
单调性：当激活函数是单调的时候，单层网络能够保证是凸函数。
输出值的范围：当激活函数输出值是有限的时候，基于梯度的优化方法会更加稳定，因为特征的表示受有限权值的影响更显著;当激活函数的输出是无限的时候，模型的训练会更加高效，不过在这种情况小，一般需要更小的learning rate

从目前来看，常见的激活函数多是分段线性和具有指数形状的非线性函数

1.Sigmoid

f (x) = 1 1 + e - x

$f(x)=\frac{1}{1+e^{-x}}$

sigmoid 是使用范围最广的一类激活函数，具有指数函数形状，它在物理意义上最为接近生物神经元。此外，0~1 的输出还可以被表示作概率，或用于输入的归一化，代表性的如Sigmoid交叉熵损失函数。然而，sigmoid也有其自身的缺陷，最明显的就是饱和性。从上图可以看到，其两侧导数逐渐趋近于0 。在后向传递过程中，一旦输入落入饱和区，梯度值就会变得接近于0，导致了向底层传递的梯度也变得非常小，这会导致训练网络时变得非常慢。此时，网络参数很难得到有效训练。这种现象被称为梯度消失。一般来说， sigmoid 网络在 5 层之内就会产生梯度消失现象此外，sigmoid函数的输出均大于0，使得输出不是0均值，这称为偏移现象，这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。如今，已经很少有人采用sigmoid函数作为激活函数，很大一部分原因是它的梯度消失这一缺点！！！

2.Tanh