动态正则化权重系数_正则化方法：L1和L2 regularization、数据集扩增、dropout

最新推荐文章于 2024-06-19 17:29:33 发布

杨大宝识

最新推荐文章于 2024-06-19 17:29:33 发布

阅读量382

点赞数 1

文章标签：动态正则化权重系数

本文链接：https://blog.csdn.net/weixin_29823011/article/details/111895463

版权

本文介绍了防止过拟合的正则化方法，如L1、L2正则化（权重衰减）和Dropout。L2正则化通过增加权重平方和的项来减小权重，降低模型复杂度，防止过拟合。L1正则化则促使权重向0靠近，进一步简化网络结构。此外，数据集扩增也是防止过拟合的有效手段。

摘要由CSDN通过智能技术生成

本文是《Neural networks and deep learning》概览中第三章的一部分，讲机器学习/深度学习算法中常用的正则化方法。(本文会不断补充)

正则化方法：防止过拟合，提高泛化能力

在训练数据不够多时，或者overtraining时，常常会导致overfitting(过拟合)。其直观的表现如下图所示，随着训练过程的进行，模型复杂度增加，在training data上的error渐渐减小，但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集，对训练集外的数据却不work。

为了防止overfitting，可以用的方法有很多，下文就将以此展开。有一个概念需要先说明，在机器学习算法中，我们常常将原始数据集分为三部分：training data、validation data，testing data。这个validation data是什么？它其实就是用来避免过拟合的，在训练过程中，我们通常用它来确定一些超参数(比如根据validation data上的accuracy来确定early stopping的epoch大小、根据validation data确定learning rate等等)。那为啥不直接在testing data上做这些呢？因为如果在testing data做这些，那么随着训练的进行，我们的网络实际上就是在一点一点地overfitting我们的testing data，导致最后得到的testing accuracy没有任何参考意义。因此，training data的作用是计算梯度更新权重，validation data如上所述，testing