L1和L2范数

最新推荐文章于 2024-05-13 12:52:03 发布

老码侬

最新推荐文章于 2024-05-13 12:52:03 发布

阅读量2.5k

点赞数 1

分类专栏：机器学习文章标签：机器学习算法计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chendawei1987/article/details/122646623

版权

L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话，就是希望W中非0元素的个数最少，即大部分元素都是0。换句话说，希望让参数W是稀疏的。

L1范数是指向量中各个元素绝对值之和，也有个美称叫“稀疏规则算子”（Lasso regularization）。任何的规则化算子，如果他在Wi=0的地方不可微，并且可以分解为一个“求和”的形式，那么这个规则化算子就可以实现稀疏。那么W的L1范数是W的绝对值，|w|在w=0处是不可微的。

既然L0可以实现稀疏，为什么不用L0，而要用L1呢？是因为L0范数很难优化求解，而且L1范数是L0范数的最优凸近似，而且它比L0范数要容易优化求解。

在正则化项中使用L1范数的出发点即希望参数稀疏，有两个作用：

可以进行特征选择。一般来说，xi的大部特征都是和最终的输出yi没有关系或者不提供任何信息的，在最小化目标函数的时候考虑xi这些额外的特征，虽然可以获得更小的训练误差，但在预测新的样本时，这些没用的信息反而会被考虑，从而干扰了对正确yi的预测。稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命，它会学习地去掉这些没有信息的特征，也就是把这些特征对应的权重置为0。
让学习结果具备可解释性：如果输入样本有很多个特征，但是学习到的参数只有几个为非0，则预测的结果只与这几个参数不为0的特征有关系，即可以解释为什么学习的结果是这样。

L2范数是指向量各元素的平方和然后求平方根。我们让特征权重的L2范数||W||2最小，可以使得W的每个元素都很小，都接近于0，但与L1范数不同，它不会让它等于0，而是接近于0。这样可以

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
L1和L2范数

L1、L2范数详解
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。