L0、L1、L2范数及正则化

最新推荐文章于 2022-04-28 09:57:08 发布

aa_JamesJones

最新推荐文章于 2022-04-28 09:57:08 发布

阅读量817

点赞数 2

分类专栏：机器学习深度学习数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aa_JamesJones/article/details/82928759

版权

本文介绍了L0、L1、L2范数在深度学习中的概念和作用，特别是它们如何作为正则化项来防止过拟合。L0范数寻求稀疏解，L1范数是其最优凸近似，而L2范数通过使参数接近0来减少模型复杂度。正则化通过在损失函数中添加范数项来平衡模型复杂度和拟合数据的能力。

摘要由CSDN通过智能技术生成

范数对于一个向量来说是一个向量的长度（模），对于一个矩阵来说是矩阵中所有向量的长度的求和。

在深度学习中，监督类学习问题其实就是在规则化参数同时最小化误差。最小化误差目的是让模型拟合训练数据，而规则化参数的目的是防止模型过分拟合训练数据。

参数太多，会导致模型复杂度上升，容易过拟合，也就是训练误差小，测试误差大。因此，我们需要保证模型足够简单，并在此基础上训练误差小，这样训练得到的参数才能保证测试误差也小，而模型简单就是通过规则函数来实现的。

规则化项可以是模型参数向量的范数。如：L0、L1、L2等。

一、L0范数与L1范数

L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话，就是希望W的大部分元素都是0。换句话说，让参数W是稀疏的。

L1范数是指向量中各个元素绝对值之和。即：

L1范数是L0范数的最优凸近似。任何的规则化算子，如果他在Wi=0的地方不可微，并且可以分解为一个“求和”的形式，那么这个规则化算子就可以实现稀疏。W的L1范数是绝对值，|w|在w=0处是不可微。

最低0.47元/天解锁文章

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
L0、L1、L2范数及正则化

范数对于一个向量来说是一个向量的长度（模），对于一个矩阵来说是矩阵中所有向量的长度的求和。在深度学习中，监督类学习问题其实就是在规则化参数同时最小化误差。最小化误差目的是让模型拟合训练数据，而规则化参数的目的是防止模型过分拟合训练数据。参数太多，会导致模型复杂度上升，容易过拟合，也就是训练误差小，测试误差大。因此，我们需要保证模型足够简单，并在此基础上训练误差小，这样训练得到的参数才能保证...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。