L1正则化，L2正则化_l1范数在降维中的作用-CSDN博客

本文链接：https://blog.csdn.net/Innovat1on/article/details/88035674

看到一篇博客，这里纠正一下，都是基于线性回归

开门见山：
L_1范数正则化、L_2范数正则化都有助于降低过拟合风险，L_2范数通过对参数向量各元素平方和求平方根，使得L_2范数最小，从而使得参数w ^的各个元素接近0 ，但不等于0。而L_1范数正则化比L_2范数更易获得“稀疏”解，即L_1范数正则化求得的w ^会有更少的非零分量，所以L_1范数可用于特征选择，而L_2范数在参数规则化时经常用到

lasso回归与ridge回归主要区别就在于正则化项的不同@！！
1。Ridge回归在不抛弃任何一个变量的情况下，缩小了回归系数，使得模型相对而言比较的稳定，但这会使得模型的变量特别多，模型解释性差。
2。Lasso回归使得一些系数变小，甚至还是一些绝对值较小的系数直接变为0，因此特别适用于参数数目缩减与参数的选择，因而用来估计稀疏参数的线性模型。（稀疏解，就是求解的参数中值为0的很多）

L1正则化：
又称为lasso回归，主要作用就是数据降维，起到特征简化的作用
本质是权值稀疏。参数稀疏规则化能够实现特征的自动选择
稀疏规则化将这些没用的特征的权重置为0，去掉这些没用的特征。（将原本很小的系数直接压缩至0，从而将这部分系数所对应的变量视为非显著性变量，将不显著的变量直接舍弃。）
不仅适用于线性情况，也适用于非线性情况。Lasso是基于惩罚方法对样本数据进行变量选择，通过对原本的系数进行压缩，将原本很小的系数直接压缩至0，从而将这部分系数所对应的变量视为非显著性变量，将不显著的变量直接舍弃。
PS：这里说一下PCA主成分分析是在保留所有原变量的基础上，通过原变量的线性组合得到主成分，选取少数主成分就可保留原变量的绝大部分信息，这样就可用这几个主成分来代替原变量，从而达到降维的目的。
举例说明：
例如：患某种病的概率为y，我们收集到的数据x是1000维的，我们的任务是寻找这1000种因素是如何影响患上这种病的概率。假设，我们有一个回归模型：y=w1x1+w2x2+…+w1000x1000+b，通过学习，我们最后学习到w只有很少的非零元素。例如只有5个非零的w*，那么这5个w*含有患上这种病的关键信息。也就是说，是否患上这种病和这5个特征相关，那事情变得容易处理多了。

但是有一个问题，含有绝对值项，Lasso损失函数不可导，因此无法采用梯度下降，牛顿法
这里求解方法采用的是***坐标轴下降法***
L2正则化
L2范数可以防止过拟合！
让L2范数的正则项||W||2最小，可以使得W的每个元素都很小，都接近于0。（L1范数让W等于0）,而越小的参数说明模型越简单，越简单的模型越不容易产生过拟合的现象。（结合上图线性回归拟合图可知，限制了某些参数很小，其实也就限制了多项式的某些分量的影响很小，这也就相当于减少了变量的个数）

可以看成是对最小二乘法的一种补充，岭回归通过对系数的大小施加惩罚来解决普通最小二乘法的一些问题

下面转载了非常直观的正则化理解方法：
https://blog.csdn.net/jinping_shi/article/details/52433975