深度学习之L1 loss和L2 loss的区别

L1 loss和L2 loss的区别?

img
L1 loss:在这里插入图片描述
L2 loss: 在这里插入图片描述
smooth L1 loss: 在这里插入图片描述

L1 loss

l1 loss在零点不平滑,用的较少。一般来说,l1正则会制造稀疏的特征,大部分无用的特征的权重会被置为0。

(适合回归任务,简单的模型,由于神经网络通常解决复杂问题,很少使用。)

l2 loss

l2 loss:对离群点比较敏感,如果feature是unbounded的话,需要好好调整学习率,防止出现梯度爆炸的情况。l2正则会让特征的权重不过大,使得特征的权重比较平均。

(适合回归任务,数值特征不大,问题维度不高)

l1和l2

smooth l1 loss

smooth l1 loss修改零点不平滑问题,L1-smooth比l2 loss对异常值的鲁棒性更强。具有l1和l2的优点,当绝对差值小于1,梯度不至于太大,损失函数较平滑,当差别大的时候,梯度值足够小,较稳定,不容易梯度爆炸。

(回归,当特征中有较大的数值,适合大多数问题)
img
img

L2 损失函数L1 损失函数L2正则化L1正则化
不是非常的鲁棒鲁棒计算效率高(有解析解)在非稀疏情形下计算效率低
稳定解不稳定解非稀疏输出稀疏输出
总是一个解可能多个解无特征选择内置特征选择

L1不可导的时候该怎么办

当损失函数不可导,梯度下降不再有效,可以使用坐标轴下降法。
梯度下降是沿着当前点的负梯度方向进行参数更新;
而坐标轴下降法是沿着坐标轴的方向;
假设有m个特征个数,坐标轴下降法进行参数更新的时候,先固定m-1个值,然后再求另外一个的局部最优解,从而避免损失函数不可导问题。

使用Proximal Algorithm对L1进行求解,此方法是去优化损失函数上界结果。

  • 17
    点赞
  • 66
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值