SSD源码解析4-损失函数（理论+源码）_ssd损失函数(3)

AUZKAY

于 2024-05-17 01:53:16 发布

阅读量443

点赞数 4

文章标签：运维 linux 面试

本文链接：https://blog.csdn.net/AUZKAY/article/details/138982320

版权

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前在阿里

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Linux运维全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上运维知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化的资料的朋友，可以点击这里获取！

知乎：SSD

知乎：目标检测|SSD原理与实现

知乎：SSD-TensorFlow 源码解析

TensorFlow之estimator详解

解析代码：

解析源码地址

SSD源码简单版

看了一下两个版本的代码，如上面链接所示，

**简单版，**代码和之前解析的源码类型是一致的，更容易理解些，但是只有预测部分而没有训练部分。虽然能很容易理解，但里面没有标签处理，损失计算等部分。即使看懂了，也有种啥都没学到的感觉。

复杂版，当时看到这个源代码是有点懵的，为啥呢？因为看不懂啊，之前没见过用这种方式写的代码，套路不太一样。反反复复犹犹豫豫了好几次，想着要不要花点精力看复杂版的，也尝试在github上搜了一下看看有没有更合适的版本，结果是并没有，所以就硬着头皮解析这个比较复杂的代码了。前期是先跳过了看不懂的部分，直接去看网络构建部分，anchor生成部分，计算损失部分，数据预处理部分，但是整体运行逻辑还是有点懵。后来看了一点有关TensorFlow的Estimator讲解，稍微有点眉目，但是还不是很了解，有点不知所以然。主要是Estimator的方式不太习惯，如果只把他当作一种框架，你按它固定的格式传入相应的参数就行，还可以接受些。具体的网络搭建，anchor创建，损失计算等和之前还是一样的。

SSD损失函数

相比较YOLOv3，SSD的损失函数相对直观些，这次就不贴手写的了，因为要贴损失计算实现的代码，手写太费事了。

SSD损失函数定义为**位置误差（locatization loss， loc）与置信度误差（confidence loss, conf）**的加权和（实际代码中还会加上l2_loss以防止过拟合）：

其中是先验框的正样本数量。这里 $x_{ij}^{k}\varepsilon {1,0}}$ 为一个指示参数，当** $x_{ij}^{k}=1$ 时表示第i 个先验框与第j 个ground truth匹配**，并且ground truth的类别为 p 。 c 为类别置信度预测值。 为先验框的所对应边界框的位置预测值，而 g 是ground truth的位置参数。

下面盗一张图再来说明一下：

1，对于位置误差

其采用Smooth L1 loss，定义如下：

由于 $x_{ij}^{k}$ 的存在，所以位置误差仅针对正样本进行计算。值得注意的是，要先对ground truth的g 进行编码得到 $\hat{g}$ （偏移量），因为预测值也是编码值，若设置variance_encoded_in_target=True，编码时要加上variance=[0.1, 0.1, 0.2, 0.2]：

上面公式在实际代码中的操作如下（encode_all_anchors()函数中）：

            gt_cy = (gt_cy - anchor_cy) / anchor_h / self._prior_scaling[0]  # [0.1, 0.1, 0.2, 0.2]
            gt_cx = (gt_cx - anchor_cx) / anchor_w / self._prior_scaling[1]
            gt_h = tf.log(gt_h / anchor_h) / self._prior_scaling[2]
            gt_w = tf.log(gt_w / anchor_w) / self._prior_scaling[3]

smooth_l1的公式如下，实际计算中x=g-l，g为ground_truth，l为预测值。

其中smooth_l1的代码实现如下：

'''
smooth_l1损失
'''
def modified_smooth_l1(bbox_pred, bbox_targets, bbox_inside_weights=1., bbox_outside_weights=1., sigma=1.):
    """
        ResultLoss = outside_weights * SmoothL1(inside_weights * (bbox_pred - bbox_targets))
        SmoothL1(x) = 0.5 * (sigma * x)^2,    if |x| < 1 / sigma^2
                      |x| - 0.5 / sigma^2,    otherwise
    """
    with tf.name_scope('smooth_l1', values=[bbox_pred, bbox_targets]):
        sigma2 = sigma * sigma

        inside_mul = tf.multiply(bbox_inside_weights, tf.subtract(bbox_pred, bbox_targets))

        smooth_l1_sign = tf.cast(tf.less(tf.abs(inside_mul), 1.0 / sigma2), tf.float32)
        smooth_l1_option1 = tf.multiply(tf.multiply(inside_mul, inside_mul), 0.5 * sigma2)  # 0.5x^2
        smooth_l1_option2 = tf.subtract(tf.abs(inside_mul), 0.5 / sigma2)  # |x|-0.5
        smooth_l1_result = tf.add(tf.multiply(smooth_l1_option1, smooth_l1_sign),
                                  tf.multiply(smooth_l1_option2, tf.abs(tf.subtract(smooth_l1_sign, 1.0))))

        outside_mul = tf.multiply(bbox_outside_weights, smooth_l1_result)

        return outside_mul

实际程序中计算smooth_l1损失的代码如下（其中location_pred是预测边框的编码值，flaten_loc_targets是标记边框的编码值）：

    #*******预测框回归smooth_l1损失
    loc_loss = modified_smooth_l1(location_pred, flaten_loc_targets, sigma=1.)    # 这时是框坐标的偏移量
    loc_loss = tf.reduce_mean(tf.reduce_sum(loc_loss, axis=-1), name='location_loss')
    tf.summary.scalar('location_loss', loc_loss)
    tf.losses.add_loss(loc_loss)

2，对于置信度误差

其采用softmax loss:

权重系数 $\alpha$ 通过交叉验证设置为1。

实际程序中对应的代码如下（其中flaten_cls_targets是类别标记值，cls_pred是预测类别值）：

    # 分类的交叉熵损失，并乘以权重系数3+1
    cross_entropy = tf.losses.sparse_softmax_cross_entropy(labels=flaten_cls_targets, logits=cls_pred) * (params['negative_ratio'] + 1.)
    # 创建一个名为cross_entropy_loss的张量用于记录。
    tf.identity(cross_entropy, name='cross_entropy_loss')
    tf.summary.scalar('cross_entropy_loss', cross_entropy)

3，l2_loss

在实际代码中，为了防止过拟合，加入了l2_loss（l2_loss一般用于优化目标函数中的正则项，防止参数太多复杂容易过拟合）。

不过正常的l2范数是求变量平方和再开根号，但是实际代码中并不是完全这样做的，而是求变量平方和的一半。



### 最后的话

最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！

### 资料预览

给大家整理的视频资料：

![](https://img-blog.csdnimg.cn/img_convert/d00bb7eaeca9b45fab354f6f7d9ea18c.png)

给大家整理的电子书资料：

  

![](https://img-blog.csdnimg.cn/img_convert/bb8d49a5f66bee8b078b2c28bb6c5711.png)



**如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！**

**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化的资料的朋友，可以点击这里获取！](https://bbs.csdn.net/topics/618635766)**


**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**

遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化的资料的朋友，可以点击这里获取！](https://bbs.csdn.net/topics/618635766)**


**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**