核范数和l1范数_L1范数与L2范数的区别

最新推荐文章于 2024-07-10 14:17:40 发布

放养的灵魂

最新推荐文章于 2024-07-10 14:17:40 发布

阅读量740

点赞数

文章标签：核范数和l1范数

本文链接：https://blog.csdn.net/weixin_35282313/article/details/112951734

版权

本文探讨了L0、L1和L2范数在监督学习中的作用，特别是L1和L2范数如何影响模型的优化。L1范数（Lasso Regularization）通过使权重稀疏，实现特征选择，而L2范数（Ridge Regression）通过限制权重的平方和，防止过拟合，提高模型泛化能力。L1范数在特征选择和模型解释性方面具有优势，而L2范数在处理条件数不佳的矩阵时有帮助。

摘要由CSDN通过智能技术生成

把答案放在前面

L0范数是指向量中非0的元素的个数。(L0范数很难优化求解)

L1范数是指向量中各个元素绝对值之和

L2范数是指向量各元素的平方和然后求平方根

L1范数可以进行特征选择，即让特征的系数变为0.

L2范数可以防止过拟合，提升模型的泛化能力，有助于处理 condition number不好下的矩阵(数据变化很小矩阵求解后结果变化很大)

(核心：L2对大数，对outlier离群点更敏感！)

下降速度：最小化权值参数L1比L2变化的快

模型空间的限制：L1会产生稀疏 L2不会。

L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。

概念

范数是具有“长度”概念的函数。在向量空间内，为所有的向量的赋予非零的增长度或者大小。不同的范数，所求的向量的长度或者大小是不同的。

举个例子，2维空间中，向量(3,4)的长度是5，那么5就是这个向量的一个范数的值，更确切的说，是欧式范数或者L2范数的值。

特别的，L0范数：指向量中非零元素的个数。无穷范数：指向量中所有元素的最大绝对值。

1.监督学习的基本模型

监督机器学习问题无非就是“minimize your error while regularizing your parameters”，也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据，而规则化参数是防止我们的模型过分拟合我们的训练数据。因为参数太多，会导致我们的模型复杂度上升，容易过拟合，也就是我们的训练误差会很小。但训练误差小并不是我们的最终目标，我们的目标是希望模型的测试误差小，也就是能准确的预测新的样本。所以，我们需要保证模型“简单”的基础上最小化训练误差，这样得到的参数才具有好的泛化性能(也就是测试误差也小)，而模型“简单”就是通过规则函数来实现的。另外，规则项的使用还可以约束我们的模型的特性。这样就可以将人对这个模型的先验知识融入到模型的学习当中，强行地让学习到的模型具有人想要的特性，例如稀疏、低秩、平滑等等。要知道，有时候人的先验是非常重要的。前人的经验会让你少走很多弯路，这就是为什么我们平时学习最好找个大牛带带的原因。一句点拨可以为我们拨开眼前乌云，还我们一片晴空万里，醍醐灌顶。对机器学习也是一样，如果被我们人稍微点拨一下，它肯定能更快的学习相应的任务。只是由于人和机器的交流目前还没有那么直接的方法，目前这个媒介只能由规则项来担当了。

还有几种角度来看待规则化的。规则化符合奥卡姆剃刀(Occam’s razor)原理。它的思想很