避免过拟合的正则化方法

最新推荐文章于 2022-12-15 21:51:57 发布

RezoLee

最新推荐文章于 2022-12-15 21:51:57 发布

阅读量372

点赞数 1

分类专栏： AI 文章标签：深度学习正则化神经网络

本文链接：https://blog.csdn.net/LK007CX/article/details/110316876

版权

AI 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

避免过拟合的正则化方法

旨在减少泛化误差。

Early Stopping

早停法
在这里插入图片描述

早停法(Early Stopping)常用于确定合适的训练周期数(epoch)
- 训练周期数是超参数
- 过少的训练周期，欠拟合
- 过多的训练周期，过拟合
早停法步骤：
- 划分训练集和验证集
- 每个(或多个)epoch结束后，在验证集上计算测试误差；如果在验证集上发现测试误差上升，则停止训练
- 将停止之后的权重作为网络的最终参数

Dropout

在这里插入图片描述
训练阶段：以概率𝑝随机移除网络中的神经元结点以及与之相连的所有输入和输出边

测试阶段: 所有神经元处于激活态，但用系数(1 − 𝑝) 减少激活值来补偿训练时丢弃的激活

使用使用inverted dropout

在前向传播中，输入被以概率为p的几率置为0；否则被乘以 $\frac{1}{1-p}$
在反向传播中，被丢弃单元的梯度被置为0；其他梯度被乘以同样的 $\frac{1}{1-p}$
前向传播哪些神经元被dropout应该被记录下来

训练阶段：直接将dropout后的网络响应（activation）乘以 $\frac{1}{1-p}$ ；在测试阶段不做调整。

Dropout可看作一种集成学习（ ensemble learning）
在这里插入图片描述

使用一个mini-batch去训练一个网络
一些网络的参数被共享

$\ell2$ 范数正则化（ $\ell2$ Regularization）

$\ell1$ 范数和 $\ell2$ 是最常用的正则化形式。它们在损失函数上增加了正则化项来更新一般的代价函数。

$cost\ function\ = \ Loss(say, binary\ cross\ entroy)\ + \ Regularization\ term$

增加正则化项后，权重矩阵中的值将减小，因为认为具有较小值的权重矩阵的神经网络会是更简单的模型。因此，这将减小过拟合.

对于 $\ell2$ 范数，
$cost\ function=Loss+\frac{\lambda}{2m}\sum\parallel w \parallel^2$

$\lambda$ 是正则化参数。它是一个超参数。

$\ell2$ 正则化也称为权重衰减 (weight decay) 因为它将迫使权重向零衰减（但不是零）

$W\ :=W-(\lambda/m)\times W-learning\ rate\times dJ(W)/dW$

权值衰减是一直以来经常被使用的一种抑制过拟合的方法。

该方法通过在学习的过程中对大的权重进行惩罚，来抑制过拟合。

$\ell1$ 范数正则化（ $\ell1$ Regularization）

对于 $\ell1$ 范数，
$cost\ function = Loss+\frac{\lambda}{2m}\sum\parallel w \parallel$

这里，惩罚的是权重的绝对值。权重可以减小到0。这对压缩模型是有用的。

$\ell2$ 范数正则化与权重衰减

一个需要被最小化的新的损失函数：

$L(w)+\frac{\lambda}{2m}\sum\parallel w \parallel^2$

梯度：
$\frac{\partial L'}{\partial w}=\frac{\partial L}{\partial w}+\lambda w$

梯度下降：
$w^{t+1}\rightarrow w^t -\eta \frac{\partial L'}{\partial w}=w^t -\eta(\frac{\partial L}{\partial w}+\lambda w^t)$
$=(1-\eta \lambda)w^t-\eta \frac{\partial L}{\partial w}$

可以看到， $\ell2$ 范数正则化对权重有衰减作用。

数据增强

略

RezoLee

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
避免过拟合的正则化方法

避免过拟合的正则化方法Early StoppingDropoutℓ2\ell2ℓ2范数正则化（ℓ2\ell2ℓ2 Regularization）ℓ1\ell1ℓ1范数正则化（ℓ1\ell1ℓ1 Regularization）ℓ2\ell2ℓ2范数正则化与权重衰减数据增强旨在减少泛化误差。Early Stopping早停法早停法(Early Stopping)常用于确定合适的训练周期数(epoch)训练周期数是超参数过少的训练周期，欠拟合过多的训练周期，过拟合早停法步骤：划
复制链接

扫一扫