smoothL1理解

最新推荐文章于 2023-05-01 21:11:34 发布

cdknight_happy

最新推荐文章于 2023-05-01 21:11:34 发布

阅读量885

点赞数

分类专栏： CNN - 检测

原文链接：https://www.jianshu.com/p/19483787fa24

版权

CNN - 检测专栏收录该内容

29 篇文章 0 订阅

订阅专栏

之前再看Fast R-CNN的时候，网络bounding boxes回归使用的smooth L1 loss，当时并没有去细想为什么用这个loss而不是l2 loss，这个loss有什么好？直到昨天看别的论文的时候提到smooth L1具有更强的鲁棒性，为什么smooth L1 loss具有更好的鲁棒性呢？上网查了下，下面是知乎的一个回答，感觉非常通俗易懂，所以就转了过来，原文——请问faster rcnn和ssd 中为什么用smooth l1 loss，和l2有什么区别？

smooth L1 loss能从两个方面限制梯度：

当预测框与 ground truth 差别过大时，梯度值不至于过大；
当预测框与 ground truth 差别很小时，梯度值足够小。

考察如下几种损失函数，其中

损失函数对 x 的导数分别为：

观察 (4)，当 x 增大时 L2 损失对 x 的导数也增大。这就导致训练初期，预测值与 groud truth 差异过于大时，损失函数对预测值的梯度十分大，训练不稳定。

根据方程 (5)，L1 对 x 的导数为常数。这就导致训练后期，预测值与 ground truth 差异很小时， L1 损失对预测值的导数的绝对值仍然为 1，而 learning rate 如果不变，损失函数将在稳定值附近波动，难以继续收敛以达到更高精度。

最后观察 (6)，smooth L1 在 x 较小时，对 x 的梯度也会变小，而在 x 很大时，对 x 的梯度的绝对值达到上限 1，也不会太大以至于破坏网络参数。 smooth L1 完美地避开了 L1 和 L2 损失的缺陷。其函数图像如下：

由图中可以看出，它在远离坐标原点处，图像和 L1 loss 很接近，而在坐标原点附近，转折十分平滑，不像 L1 loss 有个尖角，因此叫做 smooth L1 loss。

参考：
请问faster rcnn和ssd 中为什么用smooth l1 loss，和l2有什么区别？

以上内容转载自：[https://www.jianshu.com/p/19483787fa24](https://www.jianshu.com/p/19483787fa24)

keras实现smooth L1：

HUBER_DELTA = 0.5
def smoothL1(y_true, y_pred):
   x   = K.abs(y_true - y_pred)
   x   = K.switch(x < HUBER_DELTA, 0.5 * x ** 2, HUBER_DELTA * (x - 0.5 * HUBER_DELTA))
   return  K.sum(x)

cdknight_happy

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
smoothL1理解

之前再看Fast R-CNN的时候，网络bounding boxes回归使用的smooth L1 loss，当时并没有去细想为什么用这个loss而不是l2 loss，这个loss有什么好？直到昨天看别的论文的时候提到smooth L1具有更强的鲁棒性，为什么smooth L1 loss具有更好的鲁棒性呢？上网查了下，下面是知乎的一个回答，感觉非常通俗易懂，所以就转了过来，原文——请问faster ...
复制链接

扫一扫