机器学习中正则项的理解（或对L1正则项和L2正则项的直观理解）

本文链接：https://blog.csdn.net/weixin_42738495/article/details/98315397

众所周知，机器学习中在求出优化方程时，都会加上L1正则项或L2正则项亦或是两者都加上，但是，你知道为什么要加上吗？也就是正则项具体作用是什么？你了解吗？来，我们一起了解一下正则项的作用。
这里不得不引用一下这篇博客机器学习中正则化项L1和L2的直观理解。文章讲的很细，大赞！
最后在加上我查到的资料；
正则项

在优化目标函数时，除了正常的损失函数外，为了防止过拟合，我们通常加入一些正则项。有上面的分析可知，加入正则项，相当于给参数w加入了其先验分p(w)。常见的正则项有L0、L1和L2正则。
L0正则是向量的0范数，指向量中元素的个数。L0正则化的值是模型L0中非零参数的个数。L0正则化可以实现参数的稀疏化，然而L0正则化是个NP难题，很难求解，一般使用L1正则实现参数的稀疏化。
L1正则是向量的1范数，指向量各个元素绝对值的和。L1正则可以使参数更多的等于0，故可以实现参数的稀疏，也叫做Lasso回归。
L2正则是向量的2范数，指向量的內积，是所有元素的平方和再求平方根。L2正则可以使参数都趋于0，故可以实现参数的平滑，也叫做Ridge回归，即岭回归。
给损失函数加入正则项相当于加入了对参数的先验分布，因而能防止过拟合。其中，L1正则等价于参数w的先验分布满足均值为0的拉普拉斯分布，均值为0的拉普拉斯在0附近突出，周围稀疏，对应容易产生稀疏解得模型；L2正则等价于参数w的先验分布满足均值为0的正态分布，均值为0的正态分布在0附近平滑，对应容易产生平滑解得模型。

补：拉普拉斯分布：
在概率论与统计学中，拉普拉斯分布(Laplace distribution)是以皮埃尔-西蒙·拉普拉斯的名字命名的一种连续概率分布。由于它可以看作是两个不同位置的指数分布背靠背拼接在一起，所以它也叫作双指数分布。两个相互独立同概率分布指数随机变量之间的差别是按照指数分布的随机时间布朗运动，所以它遵循拉普拉斯分布。
拉普拉斯（Laplace）分布。很清楚，很明白。