正则化技术——暂退法

本文探讨了在深度学习中如何通过简单性原则,如维度减小和平滑性,实现防止过拟合的策略,特别是通过克里斯托弗·毕晓普的Tikhonov正则化和Srivastava等人的暂退法(dropout)。文章介绍了暂退法的数学原理,以及dropout_layer函数在实践中的应用,展示了其在提升神经网络训练效果中的作用。
摘要由CSDN通过智能技术生成

  理论基础

        为了缩小训练和测试性能之间的差距,应该以简单的模型为目标。一种简单性以较小维度的形式展现,通过减小数据特征的维度达到防止过拟合的目的,此外上节中的权重衰减是将参数的范数作为一种有用的简单性度量。

        简单性的另一个角度是平滑性,即函数不应该对其输入的微小变化敏感,例如,当我们对图像进行分类时,我们预计向像素中添加一些随机噪声应该是基本无影响的,1995年,克里斯托弗·毕晓普证明了具有输入噪声的训练等价于Tikhonov正则化,这项工作用数学证实了“要求函数光滑”和“要求函数对输入的随机噪声具有适应性”之间的联系。

        然后在2014年,斯里瓦斯塔瓦等人 (Srivastava et al., 2014) 就如何将毕晓普的想法应用于网络的内部层提出了一个想法:在训练过程中,他们建议在计算后续层之前向网络的每一层注入噪声。因为当训练一个有多层的深层网络时,注入噪声只会在输入‐输出映射上增强平滑性。

        这个想法被称为暂退法(dropout)。暂退法在前向传播过程中,计算每一内部层的同时注入噪声,这已经成为训练神经网络的常用技术。这种方法之所以被称为暂退法,因为我们从表面上看是在训练过程中丢弃(drop out)一些神经元。在整个训练过程的每一次迭代中,标准暂退法包括在计算下一层之前将当前层中的一些节点置零。

         那么关键的挑战就是如何注入这种噪声。一种想法是以一种无偏向(unbiased的方式注入噪声。这样在固定住其他层时,每一层的期望值等于没有噪音时的值。在毕晓普的工作中,他将高斯噪声添加到线性模型的输入中。在每次训练迭代中,他将从均值为零的分布ε ∼ N (0, σ2) 采样噪声添加到输入x,从而产生扰动点x′ = x + ε,预期是E[x′] = x。

        在标准暂退法正则化中,通过按保留(未丢弃)的节点的分数进行规范化来消除每一层的偏差。换言之,每个中间活性值h以暂退概率p由随机变量h′替换,如下所示:

         根据此模型的设计,其期望值保持不变,即E[h′] = h。

 代码实践

dropout_layer函数根据给定的drop_out参数生成与X同尺寸的掩码,与X相乘将drop_out比例的权重置0。

 函数测试

 实验结果

 暂退法简洁实现

  • 10
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值