区别
L1正则化
- L1正则化是模型各个参数的绝对值之和。
- L1范数假设参数服从拉普拉斯分布,是不完全可微,因此趋向于选择少量的特征,而其他特征都是0
- 使用L1可以得到稀疏的权值
L2正则化
- L2正则化是模型各个参数的平方和开方值。
- L2范数假设参数符合高斯分布,是完全可微的。在最小化正则项时,参数不断趋向于0,趋向于选择更多的特征,这些特征会接近于0
- 使用L2可以得到平滑的权值
优缺点
L1正则化
- 优点:输出具有稀疏性,即产生一个稀疏模型,进而可以用于特征选择;一定程度上,L1也可以防止过拟合
- 缺点:在非稀疏情况下计算效率低
L2正则化
- 优点:计算效率高(因为存在解析解);可以防止模型过拟合
- 缺点:非稀疏输出;无特征选择