L0/L1/L2范数的联系与区别

最新推荐文章于 2020-12-05 13:37:04 发布

grimm_chen

最新推荐文章于 2020-12-05 13:37:04 发布

阅读量1.3k

点赞数

 
 L0/L1/L2范数的联系与区别 

 
 最近快被各大公司的笔试题淹没了，其中有一道题是从贝叶斯先验，优化等各个方面比较L0、L1、L2范数的联系与区别。 

 
 L0范数 

 
 L0范数表示向量中非零元素的个数： 

 
 ||x|| 
 0 
 =#(i) with  x 
 i 
 ≠0 

 
 也就是如果我们使用L0范数，即希望w的大部分元素都是0. （w是稀疏的）所以可以用于ML中做稀疏编码，特征选择。通过最小化L0范数，来寻找最少最优的稀疏特征项。但不幸的是，L0范数的最优化问题是一个NP hard问题，而且理论上有证明，L1范数是L0范数的最优凸近似，因此通常使用L1范数来代替。 

 
 L1范数 -- (Lasso Regression) 

 
 L1范数表示向量中每个元素绝对值的和： 

 
 ||x|| 
 1 
 =∑ 
 ni=1 
 |x 
 i 
 | 

 
 L1范数的解通常是稀疏性的，倾向于选择数目较少的一些非常大的值或者数目较多的insignificant的小值。 

 
 L2范数 -- (Ridge Regression) 

 
 L2范数即欧氏距离： 

 
 ||x|| 
 2 
 =∑ 
 ni=1 
 x 
 2i 
 −−−−−−−√ 

 
 L2范数越小，可以使得w的每个元素都很小，接近于0，但L1范数不同的是他不会让它等于0而是接近于0. 

 
 L1范数与L2范数的比较： 

 
 但由于L1范数并没有平滑的函数表示，起初L1最优化问题解决起来非常困难，但随着计算机技术的到来，利用很多凸优化算法使得L1最优化成为可能。 

 
 贝叶斯先验 

 
 从贝叶斯先验的角度看，加入正则项相当于加入了一种先验。即当训练一个模型时，仅依靠当前的训练数据集是不够的，为了实现更好的泛化能力，往往需要加入先验项。 

L1范数相当于加入了一个Laplacean先验；
L2范数相当于加入了一个Gaussian先验。

 
 如下图所示： 

 
 1、概念 

 
 L0正则化的值是模型参数中非零参数的个数。 

 
 L1正则化表示各个参数绝对值之和。 

 
 L2正则化标识各个参数的平方的和的开方值。 

 
 2、先讨论几个问题： 

 
 1）实现参数的稀疏有什么好处吗？ 

 
 一个好处是可以简化模型，避免过拟合。因为一个模型中真正重要的参数可能并不多，如果考虑所有的参数起作用，那么可以对训练数据可以预测的很好，但是对 
 测试 
 数据就只能呵呵了。另一个好处是参数变少可以使整个模型获得更好的可解释性。 

 
 2）参数值越小代表模型越简单吗？ 

 
 是的。为什么参数越小，说明模型越简单呢，这是因为越复杂的模型，越是会尝试对所有的样本进行拟合，甚至包括一些异常样本点，这就容易造成在较小的区间里预测值产生较大的波动，这种较大的波动也反映了在这个区间里的导数很大，而只有较大的参数值才能产生较大的导数。因此复杂的模型，其参数值会比较大。 

 
 3、L0正则化 

 
 根据上面的讨论，稀疏的参数可以防止过拟合，因此用L0范数（非零参数的个数）来做正则化项是可以防止过拟合的。 

 
 从直观上看，利用非零参数的个数，可以很好的来选择特征，实现特征稀疏的效果，具体操作时选择参数非零的特征即可。但因为L0正则化很难求解，是个NP难问题，因此一般采用L1正则化。L1正则化是L0正则化的最优凸近似，比L0容易求解，并且也可以实现稀疏的效果。 

 
 4、L1正则化 

 
 L1正则化在实际中往往替代L0正则化，来防止过拟合。在江湖中也人称Lasso。 

 
 L1正则化之所以可以防止过拟合，是因为L1范数就是各个参数的绝对值相加得到的，我们前面讨论了，参数值大小和模型复杂度是成正比的。因此复杂的模型，其L1范数就大，最终导致损失函数就大，说明这个模型就不够好。 

 
 5、L2正则化 

 
 L2正则化可以防止过拟合的原因和L1正则化一样，只是形式不太一样。 

 
 L2范数是各参数的平方和再求平方根，我们让L2范数的正则项 

 
 最小，可以使W的每个元素都很小，都接近于0。但与L1范数不一样的是，它不会是每个元素为0，而只是接近于0。越小的参数说明模型越简单，越简单的模型越不容易产生过拟合现象。 

 
 L2正则化江湖人称Ridge，也称“岭回归” 

 
 6、Lasso和Ridge对比 

 
 Lasso和Ridge可以分别表示为： 

 
 我们考虑两维的情况，在(w1, w2)平面上可以画出目标函数的等高线，而约束条件则成为平面上半径为C的一个 norm ball 。等高线与 norm ball 首次相交的地方就是最优解： 

 
  可以看到，L1-ball 与L2-ball 的不同就在于L1在和每个坐标轴相交的地方都有“角”出现，有很大的几率等高线会和L1-ball在四个角，也就是坐标轴上相遇，坐标轴上就可以产生稀疏，因为某一维可以表示为0。而等高线与L2-ball在坐标轴上相遇的概率就比较小了。 

 
 总结：L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。Lasso在特征选择时候非常有用，而Ridge就只是一种规则化而已。在所有特征中只有少数特征起重要作用的情况下，选择Lasso比较合适，因为它能自动选择特征。而如果所有特征中，大部分特征都能起作用，而且起的作用很平均，那么使用Ridge也许更合适。 

grimm_chen

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
L0/L1/L2范数的联系与区别

L0/L1/L2范数的联系与区别最近快被各大公司的笔试题淹没了，其中有一道题是从贝叶斯先验，优化等各个方面比较L0、L1、L2范数的联系与区别。L0范数L0范数表示向量中非零元素的个数：||x||0=#(i) with xi≠0也就是如果我们使用L0范数，即希望w的大部分元素都是0. （w是稀疏的）所以可以用于ML中做稀疏编码，特征选择。通过最小化L0范数，来寻找最少最优
复制链接

扫一扫