L1正则化与L2正则化

最新推荐文章于 2024-05-18 20:08:10 发布

T o r

最新推荐文章于 2024-05-18 20:08:10 发布

阅读量228

点赞数

分类专栏：面试题文章标签：机器学习深度学习正则化 python 计算机视觉

本文链接：https://blog.csdn.net/qwe863226687/article/details/115018272

版权

面试题专栏收录该内容

1 篇文章 0 订阅

订阅专栏

	为什么L1正则可以产生稀疏模型（很多参数=0）， 而L2 正则不会出现很多参数为0的情况？
	（1）通过导数值进行分析：在进行梯度下降时，对于L1的正则（权值向量w中各个元素的绝对值之和）求导得到的都是1+1+······（有多项1相加），而L2正则化（权值向量w中各个元素的平方和）求导要对于各个特征进行偏导。对于L1正则导数没有减少的可能性，因为都是1。而对L2正则来说的话速度就会比较慢了。
	（2）通过正则化的函数图像进行分析：要让Obj(w)最小，反解出w*（最优解的特征参数），这就把 w 的解限制在函数图像区域内，同时使得经验风险尽可能小，因此取交点就是最优解，绝对值的函数图可以看出是一个菱形，因为L1正则图像区域是有棱角的，所以更容易在棱角取得交点，从而导致出现参数为0的情况。L1绝对值的对应图像是菱形，L2的平方和方程的对应图像是一个圆形。L2是更好接近代价函数的图像，但是代价函数要够小才能保持经验风险降至最低，以达到要求得的代价函数。这里对应的L1可以产生稀疏模型（很多参数=0）是由于菱角点上只能有某个w参数不为0，图像可以得知其他的为0.

T o r

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
L1正则化与L2正则化

为什么L1正则可以产生稀疏模型（很多参数=0），而L2 正则不会出现很多参数为0的情况？（1）通过导数值进行分析：在进行梯度下降时，对于L1的正则（权值向量w中各个元素的绝对值之和）求导得到的都是1+1+······（有多项1相加），而L2正则化（权值向量w中各个元素的平方和）求导要对于各个特征进行偏导。对于L1正则导数没有减少的可能性，因为都是1。而对L2正则来说的话速度就会比较慢了。（2）通过正则化的函数图像进行分析：要让Obj(w)最小，反解出w*（最优解的特征参数），这就把 w 的解限制.
复制链接

扫一扫