一、正则化的来源
在深度网络的训练中,参数如果没有一个”正则化”的限制,很可能会导致过拟合(容易过大或过小),因此在制定损失函数时,往往加入对参数的约束,这就是正则化,通常的正则化有L1正则,L2正则或者两者的搭配权重使用。无论是L1还是L2正则,都有着把参数量变小的效果,但是L1正则由于函数图像的特殊性,导致了一种稀疏化的特性,便于选择特征。
二、L1正则的稀疏化选择特性
我们知道,L1正则将绝对值函数作为正则化的约束,那么如图所示:
加入了L1正则的损失函数定义为,将损失函数看成两个部分,想要同时减少两个部分,考虑极限情况,这两个属于互相对抗的损失,在某个点一定可以找到两者的平衡点,由于L1正则函数的尖锐,并且所有尖锐点处于坐标轴上,因此有更大的概率形成稀疏化。
反观L2就很可能在其他点找到平衡,最后造成都是一些很小的但是不会变成0的参数。