smooth L1损失和L1、L2损失区别和优势

作者:知乎用户
链接:https://www.zhihu.com/question/58200555/answer/621174180
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

为了从两个方面限制梯度:

  1. 当预测框与 ground truth 差别过大时,梯度值不至于过大;
  2. 当预测框与 ground truth 差别很小时,梯度值足够小。

考察如下几种损失函数,其中x为预测框与 groud truth 之间 elementwise 的差异:
L 2 ( x ) = x 2 (1) L_2(x)=x^2 \tag{1} L2(x)=x2(1)
L 1 ( x ) = ∣ x ∣ (2) L_1(x)=|x| \tag{2} L1(x)=x(2)
s m o o t h L 1 ( x ) = { 0.5 x 2 i f ∣ x ∣ < 1 ∣ x ∣ − 0.5 o t h e r w i s e (3) smooth_{L_1}(x)=\begin{cases} 0.5x^2 & if |x|<1 \\ |x|-0.5 & otherwise \end{cases} \tag{3} smoothL1(x)={0.5x2x0.5ifx<1otherwise(3)

损失函数对x的导数分别为:
d L 2 ( x ) d x = 2 x (4) \frac{dL_2(x)}{dx}=2x \tag{4} dxdL2(x)=2x(4)
d L 1 ( x ) d x = { 1 i f x ≥ 0 − 1 o t h e r w i s e (5) \frac{dL_1(x)}{dx}=\begin{cases} 1 & if x \ge 0 \\ -1 & otherwise \end{cases} \tag{5} dxdL1(x)={11ifx0otherwise(5)
d s m o o t h L 1 ( x ) d x = { x i f ∣ x ∣ < 1 ± 1 o t h e r w i s e (6) \frac{dsmooth_{L_1}(x)}{dx}=\begin{cases} x & if |x|<1 \\ \pm 1 & otherwise \end{cases} \tag{6} dxdsmoothL1(x)={x±1ifx<1otherwise(6)
观察 (4),当x增大时L2损失对x的导数也增大。这就导致训练初期,预测值与 groud truth 差异过于大时,损失函数对预测值的梯度十分大,训练不稳定。
根据方程 (5),L1对x的导数为常数。这就导致训练后期,预测值与 ground truth 差异很小时,L1损失对预测值的导数的绝对值仍然为 1,而 learning rate 如果不变,损失函数将在稳定值附近波动,难以继续收敛以达到更高精度。
最后观察 (6),smoothL1 在x较小时,对x的梯度也会变小,而在x很大时,对x的梯度的绝对值达到上限 1,也不会太大以至于破坏网络参数。smoothL1完美地避开了L1和L2损失的缺陷。其函数图像如下:
在这里插入图片描述

由图中可以看出,它在远离坐标原点处,图像和L1 loss 很接近,而在坐标原点附近,转折十分平滑,不像L1 loss 有个尖角,因此叫做 smooth L1 loss。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值