文章目录
L1和L2正则化的目标是以不同的方式使参数减小,越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象,提高模型泛化能力。
一、L1和L2正则分别是什么
L1正则即将权重参数的绝对值之和加入到损失函数中,以二元线性回归为例,损失函数变为:
L2正则即将权重参数的平方之和加入到损失函数中,以二元线性回归为例,损失函数变为:
二、L1和L2的区别是什么
1、L1正则化是指在损失函数中加入权值向量w的绝对值之和,即各个元素的绝对值之和,L2正则化指在损失函数中加入权值向量w的平方和。
2、L1的功能是使权重稀疏,正则化项非0参数,优化这个直接等于求稀疏解,而L2的功能是使权重平滑
3、L2的解空间为圆形的(平方画出来是圆形),而L1的解空间为菱形(绝对值画出来为菱形)
4、从贝叶斯角度来看,L1正则化相当于对模型参数w引入了拉普拉斯先验,L2正则化相当于引入了高斯先验
解释:当均值为0时,高斯分布在极值点处是平滑的,也就是高斯先验分布认为w在极值点附近取不同值的可能性是接近的,在零附近的概率较大。但对拉普