正则化通过降低模型的复杂性, 达到避免过拟合的问题。
线性模型常用来处理回归和分类任务,为了防止模型处于过拟合状态,需要用L1正则化和L2正则化降低模型的复杂度,很多线性回归模型正则化的文章会提到L1是通过稀疏化参数来降低复杂度,L2是通过减小参数值的大小来降低复杂度。
文章的内容总结了网上各种版本的解释:
1、梯度角度分析
2、优化角度分析
3、先验概率角度分析
4、知乎点赞最多的图形角度分析
5、限制条件角度分析
6、PRML的图形角度分析
1. 梯度角度分析
1)L1正则化
L1正则化的损失函数为:
上式可知,当w大于0时,更新的参数w变小;当w小于0时,更新的参数w变大;所以,L1正则化容易使参数变为0,即特征稀疏化。
2)L2正则化
L2正则化的损失函数为:
由上式可知,正则化的更新参数相比于未含正则项的更新参数多了
项,当w趋向于0时,参数减小的非常缓慢,因此L2正则化使参数减小到很小的范围,但不为0。