正则化技术——暂退法

最新推荐文章于 2024-08-31 22:02:39 发布

灵活奋斗

最新推荐文章于 2024-08-31 22:02:39 发布

阅读量520

点赞数 10

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/m0_68605098/article/details/135598097

版权

本文探讨了在深度学习中如何通过简单性原则，如维度减小和平滑性，实现防止过拟合的策略，特别是通过克里斯托弗·毕晓普的Tikhonov正则化和Srivastava等人的暂退法（dropout）。文章介绍了暂退法的数学原理，以及dropout_layer函数在实践中的应用，展示了其在提升神经网络训练效果中的作用。

摘要由CSDN通过智能技术生成

理论基础

为了缩小训练和测试性能之间的差距，应该以简单的模型为目标。一种简单性以较小维度的形式展现，通过减小数据特征的维度达到防止过拟合的目的，此外上节中的权重衰减是将参数的范数作为一种有用的简单性度量。

简单性的另一个角度是平滑性，即函数不应该对其输入的微小变化敏感，例如，当我们对图像进行分类时，我们预计向像素中添加一些随机噪声应该是基本无影响的，1995年，克里斯托弗·毕晓普证明了具有输入噪声的训练等价于Tikhonov正则化，这项工作用数学证实了“要求函数光滑”和“要求函数对输入的随机噪声具有适应性”之间的联系。

然后在2014年，斯里瓦斯塔瓦等人 (Srivastava et al., 2014) 就如何将毕晓普的想法应用于网络的内部层提出了一个想法：在训练过程中，他们建议在计算后续层之前向网络的每一层注入噪声。因为当训练一个有多层的深层网络时，注入噪声只会在输入‐输出映射上增强平滑性。

这个想法被称为暂退法（dropout）。暂退法在前向传播过程中，计算每一内部层的同时注入噪声，这已经成为训练神经网络的常用技术。这种方法之所以被称为暂退法，因为我们从表面上看是在训练过程中丢弃（drop out）一些神经元。在整个训练过程的每一次迭代中，标准暂退法包括在计算下一层之前将当前层中的一些节点置零。

那么关键的挑战就是如何注入这种噪声。一种想法是以一种无偏向（unbiased的方式注入噪声。这样在固定住其他层时，每一层的期望值等于没有噪音时的值。在毕晓普的工作中，他将高斯噪声添加到线性模型的输入中。在每次训练迭代中，他将从均值为零的分布ε ∼ N (0, σ2) 采样噪声添加到输入x，从而产生扰动点x′ = x + ε，预期是E[x′] = x。

在标准暂退法正则化中，通过按保留（未丢弃）的节点的分数进行规范化来消除每一层的偏差。换言之，每个中间活性值h以暂退概率p由随机变量h′替换，如下所示：