smooth L1损失和L1、L2损失区别和优势

最新推荐文章于 2024-01-24 11:51:14 发布

Emma1997

最新推荐文章于 2024-01-24 11:51:14 发布

阅读量1.6k

点赞数 1

分类专栏：神经网络与相关技术

原文链接：https://www.zhihu.com/question/58200555/answer/621174180

版权

神经网络与相关技术专栏收录该内容

42 篇文章 2 订阅

订阅专栏

作者：知乎用户
链接：https://www.zhihu.com/question/58200555/answer/621174180
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

为了从两个方面限制梯度：

当预测框与 ground truth 差别过大时，梯度值不至于过大；
当预测框与 ground truth 差别很小时，梯度值足够小。

考察如下几种损失函数，其中x为预测框与 groud truth 之间 elementwise 的差异：
$L_2(x)=x^2 \tag{1}$
$L_1(x)=|x| \tag{2}$
$smooth_{L_1}(x)=\begin{cases} 0.5x^2 & if |x|<1 \\ |x|-0.5 & otherwise \end{cases} \tag{3}$

损失函数对x的导数分别为：
$\frac{dL_2(x)}{dx}=2x \tag{4}$
$\frac{dL_1(x)}{dx}=\begin{cases} 1 & if x \ge 0 \\ -1 & otherwise \end{cases} \tag{5}$
$\frac{dsmooth_{L_1}(x)}{dx}=\begin{cases} x & if |x|<1 \\ \pm 1 & otherwise \end{cases} \tag{6}$
观察 (4)，当x增大时L2损失对x的导数也增大。这就导致训练初期，预测值与 groud truth 差异过于大时，损失函数对预测值的梯度十分大，训练不稳定。
根据方程 (5)，L1对x的导数为常数。这就导致训练后期，预测值与 ground truth 差异很小时，L1损失对预测值的导数的绝对值仍然为 1，而 learning rate 如果不变，损失函数将在稳定值附近波动，难以继续收敛以达到更高精度。
最后观察 (6)，smoothL1 在x较小时，对x的梯度也会变小，而在x很大时，对x的梯度的绝对值达到上限 1，也不会太大以至于破坏网络参数。smoothL1完美地避开了L1和L2损失的缺陷。其函数图像如下：
在这里插入图片描述