L2 normalization 为什么能够降低过拟合

最新推荐文章于 2023-11-02 15:43:36 发布

hxj_rain

最新推荐文章于 2023-11-02 15:43:36 发布

阅读量2.1k

点赞数

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/hhhxiaojian/article/details/78170326

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

L2 normalization 为什么能够降低过拟合？

这里写图片描述
假设 cost function 为：
$J(w,b) = \frac{1}{m}\sum_{i=0}^{n}(\hat{y_i}-y_i)^{2} + \frac{\lambda}{2m}\sum_{l=1}^{L}||w^{[l]}||_F^2$

其中：
$||w^{[l]}||_F^2 = \sum_{i=1}^{n[l-1]}\sum_{j=1}^{n[l]}||w_{ij}||^2$

假定激活函数使用： $g(z) = tanh(z)$

若使成本函数最小化，若 $\lambda$ 变大，则， $w^{[l]}$ 变小，那么， $z^{[l]} = w^{[l]}a^{[l-1]}+b^{[l]}$ 变小

对于 $tanh(z)$ 函数，当 $z$ 很小时， $z\approx tanh(z)$ ,所以，activation function 就可以看作linear function

若每层的激活函数都是线性函数，那么整个神经网络学习到的依然是线性函数。

这也就解释了，为什么正则化能够降低过拟合。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hxj_rain

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【AI面试】降低过拟合的方式方法横评探究

钱多多先森

05-29

627

数据增强、正则化、Dropout、早停法、模型集成、增加训练数据、调整网络模型、调整超参数

详解L1和L2正则化

He_YI的博客

11-24

1万+

参与评论您还未登录，请先登录后发表或查看评论

L2 normalization和L1，L2 regulation

qq_39068872的博客

09-18

5553

L2 Normalization 第二种Normalization对于每个样本缩放到单位范数（每个样本的范数为1），主要有L1-normalization（L1范数）、L2-normalization（L2范数）等 Normalization主要思想是对每个样本计算其p-范数，然后对该样本中每个元素除以该范数，这样处理的结果是使得每个处理后样本的p-范数（比如l1-norm,l2-norm）等于1...

深度学习（二十四）——L2 Normalization, Attention（1）

antkillerfarm的专栏

05-28

2万+

L2 Normalization L2 Normalization本身并不复杂，然而多数资料都只提到1维的L2 Normalization的计算公式： x=[x1,x2,…,xd]y=[y1,y2,…,yd]y=x∑di=1x2i‾‾‾‾‾‾‾√=xxTx‾‾‾‾√x=[x1,x2,…,xd]y=[y1,y2,…,yd]y=x∑i=1dxi2=xxTxx=[x_1,x_2,\dots,x_...

caffe中的L2 Normalization原理以及推导

Iriving_shu的博客

10-20

2905

归一化数学公式：反向传播：

L1和L2正则化通俗理解

最新发布

二十年蝉电子学习博客

11-02

2462

机器学习中，如果参数过多，模型过于复杂，容易造成过拟合（overfit）。即模型在训练样本数据上表现的很好，但在实际测试样本上表现的较差，不具备良好的泛化能力。为了避免过拟合，最常用的一种方法是使用使用正则化，例如 L1 和 L2 正则化。

L1、L2、Batch Normalization、Dropout为什么能够防止过拟合呢？

qq_29462849的博客

10-16

6445

1、L1正则化 L1正则化算法用来防止过拟合时，是在损失函数上加入∣∣w∣∣||w||∣∣w∣∣，如下式所示：在优化损失函数的时候L1正则化会产生稀疏矩阵，导致一部分w为0，注意这也是L1正则化的核心思想。产生稀疏矩阵之后，一部分w为0，一部分不为0，这样即可对特征进行选择。选择比较重要、明显的特征作为分类和预测的依据，抛弃那些不重要的特征。 2、L2正则化 L2正则化算法用来防止过拟合时，...

dropout降低过拟合的原理,神经网络中解决过拟合

纸尿裤排行

10-15

1165

在卷积神经网络CNN中(计算机视觉与卷积神经网络 ),卷积层就是其中权值共享的方式,一个卷积核通过在图像上滑动从而实现共享参数,大幅度减少参数的个数,用卷积的形式是合理的,因为对于一副猫的图片来说,右移一个像素同样还是猫,其具有局部的特征.这是一种很好的缓解过拟合现象的方法.BN实现这一点的机制是尽量在一个更平滑的解子空间中寻找问题的解，强调的是处理问题的过程的平滑性，隐含的思路是更平滑的解的泛化能力更好，Dropout是强调的鲁棒性，即要求解对网络配置的扰动不敏感，隐含思路是更鲁棒的解泛化能力更好。

降低模型“过拟合”、“欠拟合”风险的方法

kuaizi_sophia的博客

12-26

5737

过拟合：指模型对于训练数据拟合呈过当的情况，反映到评估指标上，是模型在训练集上表现很好，但在测试集和新数据上表现较差，在模型训练过程中，表现为训练误差持续下降，同时测试误差出现持续增长的情况。欠拟合：指模型对于训练数据拟合不足的情况，表现为模型在训练集和测试集表现都不好。如上图所示，从左至右，依次为欠拟合、正常模型、过拟合情况，欠拟合情况中，拟合蓝线没有很好地捕捉到数据的特征，不能很好地拟合...

神经网络怎么解决过拟合,解决神经网络过拟合

aifamao3的博客

08-24

1820

欠拟合是指模型不能在训练集上获得足够低的误差。而过拟合是指训练误差和测试误差之间的差距太大。通过调整模型的容量(capacity)，我们可以控制模型是否偏向于过拟合或者欠拟合。通俗地，模型的容量是指其拟合各种函数的能力。容量低的模型可能很难拟合训练集。容量高的模型可能会过拟合，因为记住了不适用于测试集的训练集性质。欠拟合是指模型不能在训练集上获得足够低的误差。而过拟合是指训练误差和测试误差之间的差距太大。考虑过多，超出自变量的一般含义维度，过多考虑噪声，会造成过拟合。

Normalization(标准化)的原理和实现详解

热门推荐

Dongdong Bai's Blogs

10-08

4万+

Normalization这个名词在很多地方都会出现，但是对于数据却有两种截然不同且容易混淆的处理过程。对于某个多特征的机器学习数据集来说，第一种Normalization是对于将数据进行预处理时进行的操作，是对于数据集的各个特征分别进行处理，主要包括min-max normalization、Z-score normalization、 log函数转换和atan函数转换等。第二种Normaliza

深度学习中的normalization

weixin_45711264的博客

03-11

1196

背景： normalization的作用：解决数据尺度分布异常的问题。relu可以解决，但可能出现梯度爆炸或消失。sigmoid也会导致梯度爆炸或消失。normalization则将数据尺度控制在一个合理区间内，主要是让梯度在0.5附近，不会过于接近0（消失），也不会超过1（爆炸）。一、batch normalization 一个Batch的图像数据shape为[样本数N, 通道数C, 高度H,...

卷积神经网络基础2

salmonwilliam的博客

06-06

348

内容都是百度AIstudio的内容，我只是在这里做个笔记，不是原创。批归一化方法（Batch Normalization，BatchNorm）是由Ioffe和Szegedy于2015年提出的，已被广泛应用在深度学习中，其目的是对神经网络中间层的输出进行标准化处理，使得中间层的输出更加稳定。通常我们会对神经网络的数据进行标准化处理，处理后的样本数据集满足均值为0，方差为1的统计分布，这是因为当输入数据的分布比较固定时，有利于算法的稳定和收敛。对于深度神经网络来说，由于参数是不断更新的，即使输入数据已经

机器学习中的数据预处理方法——c++实现

elune100的博客

07-23

1080

1.最小-最大规范化最小-最大规范化对原始数据进行线性变换，变换到[0,1]区间（也可以是其他固定最小最大值的区间） x[n] = (x[n] - min) / (max - min) 2. 标准化（Standardization or Mean Removal and Variance Scaling) 变换后各维特征有0均值，单位方差。也叫z-score规范化（零均值规范化）。计算方式是将特...

图像处理中的L1-normalize 和L2-normalize

a200800170331的专栏

03-21

2万+

当一幅图像用某种特征表示出来，一般要进行L1-normalize或者是L2-normalize。假设一幅图像表示为Y=[x1 x2 x3 x4 x5], L1-normalize的结果为： L2-normalize的结果为：通过L1或L2标准化的图像特征往往具有良好的效果，至于那个更好就需要自己试验。假设我们提取一个图像库的特征为histograms，其中列

L2正则化项为什么能防止过拟合学习笔记

机器学习、数据挖掘

10-31

8562

https://www.cnblogs.com/alexanderkun/p/6922428.html L2 regularization（权重衰减） L2正则化就是在代价函数后面再加上一个正则化项： C0代表原始的代价函数，后面那一项就是L2正则化项，它是这样来的：所有参数w的平方的和，除以训练集的样本大小n。λ就是正则项系数，权衡正则项与C0项的比重。另外还有一个系数1/2，1/2经...

regularization 规范化（L1，L2等等）：加惩罚函数降低过拟合

丁磊_ml的博客

08-12

8200

这称为岭回归一般模型选择最好的惩罚函数 L1L2 规范在上一节的课程中，我们讲到右图用的是１０次方程去拟合，左图用的是２次方程去拟合。很显然１０次方程发生过拟合现象。那么我们就选择化简模型，将１０次模型转化为２次模型。我们先假设将x域映射到z域的函数Φ(x)\Phi (x)为(对于所有的非线性模型，都存在映射函数Φ(x)\Phi (x)) 那么１０次模型和２次模型的表达式分别

为什么正则化可以减小过拟合

ilove_itachi的博客

08-02

1446

正则化 过拟合

CNN中的小tips（3）---《l1,l2正则化为什么可以减轻过拟合现象》

阿华Go，从现在开始的博客

04-16

4405

过拟合现象发生的原因： 过拟合现象：由于神经网络的学习能力过于强大，以至于学到了训练样本中一些不太一般的特点，从而导致模型的泛化能力变差！本质原因：由于监督学习问题的不适定：可以这样理解，高数中我们通过n个方程求解n个变量，当用这n个方程求解n+1个变量时，就会求解不出来；在监督学习中，我们给定的数据（方程）远远少于模型空间中的变量（变量的个数）。而且模型越复杂，越容易过拟合！因此过...

pytorch降低模型过拟合

05-20

PyTorch中降低模型过拟合的方法有以下几种： 1. 数据增强：通过对训练数据进行旋转、平移、缩放等操作，增加训练数据的多样性，有助于提高模型的泛化能力，减少过拟合。 2. Dropout：在训练期间，随机将一部分神经...