深度学习：正则化

-柚子皮-

已于 2023-05-30 22:54:11 修改

阅读量2.1k

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习DeepLearning 文章标签： Tensorflow 神经网络过拟合

于 2017-07-18 15:54:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pipisorry/article/details/75307522

本文介绍了深度学习中防止过拟合的正则化策略，包括L1和L2范数正则化以及Dropout方法。Dropout在训练时随机失活神经元，通过平均多个子网络来提高泛化能力。在测试时，为保持期望一致，需要对训练时的输出进行rescale。同时，文章探讨了Dropout在RNN中的应用及其变体，以及在训练和测试阶段的差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

http://blog.csdn.net/pipisorry/article/details/75307522

机器学习模型过拟合可采用的方法参考[Machine Learning - X. Advice for Applying Machine Learning机器学习算法的诊断和改进]

LN和BN归一化 [深度学习：批归一化Batch Normalization]

大模型的正则化参考[深度学习：大模型的正则化_-柚子皮-的博客-CSDN博客]

过拟合的原因：

过拟合一般是因为数据少而模型复杂；还有就是共线性（多变量线性回归中，变量之间由于存在高度相关关系而使回归估计不准确。共线性会造成冗余，导致过拟合。）

为了防止过拟合，提高模型泛化能力，减少测试误差，深度学习模型（如神经网络）一般采用正则化策略。采用的方法有范数惩罚（如l2正则）、排除变量的相关性／加入权重正则（共线性解决）、数据集增强、提前终止、参数绑定和共享、ensembling models集成、dropout、对抗训练、batch normalization等等。

[机器学习系统设计(Week 6)系统评估标准]

L1和L2范数正则化

方法参考[最优化方法：L1和L2正则化regularization ]

深度学习模型中L1和L2正则化需要注意的一点是：

在神经网络中我们通常只对每一层仿射变换的权重做惩罚而不对偏置做正则惩罚。精确拟合偏置所需的数据通常比拟合权重少得多。每个权重会指定两个变量如何相互作用。我们需要在各种条件下观察这两个变量才能良好地拟合权重。而每个偏置仅控制一个单变量。这意味着，我们不对其进行正则化也不会导致太大的方差。另外，正则化偏置参数可能会导致明显的欠拟合。因此，我们使用向量 w 表示所有应受范数惩罚影响的权重，而向量 θ 表示所有参数 (包括 w 和无需正则化的参数）。

有时希望对网络的每一层使用单独的惩罚，并分配不同的α系数。

Dropout正则化

Dropout 是在训练过程中以一定的概率的使神经元失活，即输出为0，以提高模型的泛化能力，减少过拟合。

训练

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。