L1正则化和L2正则化可以看做是损失函数的惩罚项,惩罚就是损失函数中的某些参数做了一些限制
对于线性回归模型,使用 L1 正则化的模型叫做 Lasson 回归,使用 L2 正则化的模型叫做 Ridge 回归(岭回归)。
L1和L2正则化的线性回归:
minw12nsamples||Xw−y||22+α||w||1 (式中加号后面一项α||w||1即为L1正则化项)
minw12nsamples||Xw−y||22+α||w||22
L1正则化和L2正则化的说明如下:
- L1正则化是指权值向量w中各个元素的绝对值之和,通常表示为||w||1
- L2正则化是指权值向量w中各个元素的平方和然后再求平方根(可以看到Ridge回归的L2正则化项有平方符号),通常表示为||w||2
L1正则化和L2正则化的作用:
- L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择
- L2正则化可以防止模型过拟合(overfitting);一定程度上,L1也可以防止过拟合
L1(拉格朗日)正则假设参数的先验分布是Laplace分布,可以保证模型的稀疏性,也就是某些参数等于0
L2(岭回归)正则假设参数的先验分布是Gaussian分布,可以保证模型的稳定性,也就是参数的值不会太大或太小。
在实际使用中,如果特征是高维稀疏的,则使用L1正则;如果特征是低维稠密的,则使用L2正则。