L1正则和L2正则

L1和L2正则化:
我们所说的正则化,就是在原来的loss function的基础上,加上了一些正则化项或者称为模型复杂度惩罚项。
结构风险最小化: 在经验风险最小化的基础上(也就是训练误差最小化),尽可能采用简单的模型,以此提高泛化预测精度。
在这里插入图片描述
在这里插入图片描述
那现在我们就看看加了L1正则化和L2正则化之后,目标函数求解的时候,最终解有什么变化。

图像解释(假设X为一个二维样本,那么要求解参数 [公式] 也是二维):
在这里插入图片描述
1. L1正则化和L2正则化的区别?
L1会趋向于产生少量的特征,而其他的特征都是零,因为最优的参数值很大概率出现在坐标轴上,这样就会导致某一维的权重为零,产生稀疏权重矩阵。

L2会选择更多的特征,这些特征都会接近于零,最优的参数值很小概率出现在坐标轴上,因此每一维的参数都不会是零,当最小化‖w‖时,就会使每一项趋近于零。
2. L1正则为什么可以把系数压缩成0,坐标下降法的具体实现细节
坐标下降法属于一种非梯度优化的方法,它在每步迭代中沿一个坐标的方向进行搜索,通过循环使用不同的坐标方法来达到目标函数的局部极小值。
坐标轴下降法进行参数更新时,每次总是固定另外m-1个值,求另外一个的局部最优值,这样也避免了Lasso回归的损失函数不可导的问题。

3. 为什么L1很多系数可以被压缩为0,L2是被压缩至接近于0
L1和L2正则常被用来解决过拟合问题。而L1正则也常被用来进行特征选择,主要原因在于L1正则化会使得较多的参数为0,从而产生稀疏解,将0对应的特征遗弃,进而用来选择特征。
但为什么L1正则会产生稀疏解呢?这里利用公式进行解释。
假设只有一个参数为w,损失函数为L(w),分别加上L1正则项和L2正则项后有:
在这里插入图片描述
假设L(w)在0处的倒数为d0,即
在这里插入图片描述
则可以推导使用L1正则和L2正则时的导数。

引入L2正则项,在0处的导数
在这里插入图片描述
引入L1正则项,在0处的导数
在这里插入图片描述可见,引入L2正则时,代价函数在0处的导数仍是d0,无变化。而引入L1正则后,代价函数在0处的导数有一个突变。从d0+λ到d0−λ,若d0+λ和d0−λ异号,则在0处会是一个极小值点。因此,优化时,很可能优化到该极小值点上,即w=0处。

这里只解释了有一个参数的情况,如果有更多的参数,也是类似的。因此,用L1正则更容易产生稀疏解。

另附:
在这里插入图片描述
对参数引入 高斯先验 等价于L2正则化。对参数引入 拉普拉斯先验 等价于 L1正则化

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值