原创:轮回Pan Refinitiv创新实验室ARGO
机器学习中为了防止模型过拟合,通常会引入正则化(也称之为惩罚项)。常见的正则化有L1正则和L2正则,两者各有优缺点,而这里我们的关注点是为什么L1正则能导致模型参数稀疏化,而L2不能?
以线性回归为例,其损失函数Loss加上正则项后的形式
L1的形式为:
L2的形式:
I . 形象解释
首先咱们来看看网上流传的一种形象化的解释,大家一定见过下面这两幅图:
图1 L1正则化Loss Function
图2 L2正则化Loss Function
假设有如下带L1正则化的损失函数:
其中J0是原始的损失函数,后面的一项是L1正则化项,α是正则化系数。因为L1正则化是权值的绝对值之和,J0是带有绝对值符号的函数,因此J是不完全可微的。机器学习的任务就是要通过一些方法(比如梯度下降)求出损失函数的最小值。当在原始损失函数J后添加L1正则化项时,相当于对J0做了一个约束。令L=α∑|w|,则J=J0+L,此时变成在