smooth l1(huber)+binary cross entropy详解（tensorflow+pytorch）

最新推荐文章于 2022-11-19 12:00:00 发布

WTHunt

最新推荐文章于 2022-11-19 12:00:00 发布

阅读量994

点赞数

分类专栏：深度学习 tensorflow

本文链接：https://blog.csdn.net/qq_20880415/article/details/103332479

版权

11 篇文章 1 订阅

订阅专栏

11 篇文章 0 订阅

订阅专栏

上篇讲到yolo v2 loss中使用了两个loss分别时wh使用的smoothl1 loss以及其他的BCEloss，这里做个扩展介绍，并对比pytorch以及tensorflow的api接口的使用

smooth L1 loss能从两个方面限制梯度：

考察如下几种损失函数，其中

损失函数对 x 的导数分别为：

观察 (4)，当 x 增大时 L2 损失对 x 的导数也增大。这就导致训练初期，预测值与 groud truth 差异过于大时，损失函数对预测值的梯度十分大，训练不稳定。

根据方程 (5)，L1 对 x 的导数为常数。这就导致训练后期，预测值与 ground truth 差异很小时， L1 损失对预测值的导数的绝对值仍然为 1，而 learning rate 如果不变，损失函数将在稳定值附近波动，难以继续收敛以达到更高精度。

最后观察 (6)，smooth L1 在 x 较小时，对 x 的梯度也会变小，而在 x 很大时，对 x 的梯度的绝对值达到上限 1，也不会太大以至于破坏网络参数。 smooth L1 完美地避开了 L1 和 L2 损失的缺陷。其函数图像如下：

由图中可以看出，它在远离坐标原点处，图像和 L1 loss 很接近，而在坐标原点附近，转折十分平滑，不像 L1 loss 有个尖角，因此叫做 smooth L1 loss。

pytorch：

import torch.nn as nn
smooth_l1 = nn.SmoothL1Loss(reduce=False)
loss = smooth_l1(coord_wh, tcoord_wh))

tensorflow：

#reduction参数默认返回sum值，若要返回同shape的矩阵则传入NONE
loss = tf.losses.huber_loss(gt_coord_wh, pre_coord_wh, reduction=tf.losses.Reduction.NONE)

关注