yolov3

最新推荐文章于 2023-05-21 09:31:36 发布

谓孤勇

最新推荐文章于 2023-05-21 09:31:36 发布

阅读量152

点赞数

分类专栏： CNN

本文链接：https://blog.csdn.net/renmeng140481/article/details/116702161

版权

CNN 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

输入输出

image: 416 * 416
output
- grid_1 (13 * 13 * 3 * (5 + nb_class))
- grid_2 (26 * 26 * 3 * (5 + nb_class))
- grid_3 (52 * 52 * 3 * (5 + nb_class))

grid_1 输出的是分辨率小, 目标对象很大的objects；相对应 grid_3 输出是分辨率大, 目标对象小的objects；
grid_1为例, 有13 * 13 cells, 每个cell中有3个不同大小的anchor, 每个anchor可对应一个候选的object；
anchor中, 预测box的对应信息 $t_x, t_y, t_w, t_h,score_{objectness}, p_{class_1}, p_{class_2}$ , 详细参考预测部分

架构

YOLOV3
- Darknet-53: yolov3的backbone, 总共有53层卷积操作, 代码中会加上BN层,Leaky_Relu层, padding层
  - resBlock: 5个resBlock操作, 5次下采样, 每次下采样, 分辨率会降低1倍, 最终分辨率降低为原图的1/32倍
    - Conv2d_BN_Leaky_noBias
- predict_out: 主要结构是1*1, 3*3卷积操作, 两次上采样, 最后形成3个不同尺度的grid输出

在这里插入图片描述

对象检测算法中, YOLO是one-stage算法, 即同时预测bbox的位置信息和对bbox里的object分类.

预测

模型输出: $output=[t_x, t_y, t_w, t_h,score_{objectness}, p_{class_1}, p_{class_2}, ...., p_{class_n}]$

1. bbox的坐标和objectness_score

$x_{center}=\sigma(t_x) + c_x\tag{1}$ $y_{center}=\sigma(t_y) + c_y\tag{2}$ $w_{object}=w_{anchor} * e^{t_w}\tag{3}$ $h_{object}=h_{anchor} * e^{t_h}\tag{4}$

公式(1)(2)的中心点坐标是相对于grid的, 不是原image；
公式(3)(4)中anchor的width和height被称为bbox的先验；
所以yolo直接预测的是bbox的中心点坐标 $[-\infty, +\infty]$ , 然后sigmoid函数压缩到(0, 1), 表示相对grid中cell左上角的偏移, 公式(1)中 $c_x, c_y$ 代表grid中, cell的坐标；对于宽和高, yolo直接预测的是bbox相对于anchor的对应边的比值然后在取对数, 印象中yolo9000论文里提到这么做是为了好训练?

论文中提到yolo预测objectness_score是通过逻辑回归(是sigmoid, 把值压缩到了[0, 1]?)

2. 类别预测

softmax函数

3. 多scale预测

类似FPN网络, 指抽取feature在不同的下采样level上, 分辨率高的feature, 语义信息丰富, 粒度细；分辨率低的feature, 语义信息少, 粒度粗?
多scale抽特征, 在很多论文中都用了, yolo, fpn, maskrcnn, unet++

4. 特征抽取

Darknet-53: Darknet是resnet与其他的混合版. 作者对比了Darknet-53 和resnet-101, resnet-152, 结论是Darknet-53 和resnet-152有similar performance, 而且Darknet-53比resnet-152快了2倍, 原因是resnet层数太多了, 不efficient

损失

四部分损失: $loss_{xy} + loss_{wh} + loss_{objectness} + loss_{class}]$

计算损失的时候, grid predict的每一个cell中都会有一个预测box, 会为每一个预测bbox匹配最优的groud_truth(iou最大), 如果bbox中实际没有groud_truth, 就不会产生坐标, 宽高, 类别损失, 但可能会有objectness损失(如果预测box与真实box覆盖面积超过阈值的时候, 该cell中的预测box会有objectness损失).

$loss_{xy}$ 坐标损失:
$\sum_{object}{(c_{pred} - c_{true}) * scale}\tag{5}$

$c_{pred}$ 表示object在grid上的中心点坐标, scale是比例因子, object面积越大, scale越小

$loss_{wh}$ 宽高损失:

$\sum_{objcet}{(t_{pred} - t_{true}) * scale}\tag{6}$

$t_{pred}$ 表示 $t_w, t_h$ 即模型直接预测的值, scale同上
只有有object的grid有 $loss_{xy}$ , $loss_{wh}$

$loss_{objectness}$ 是否包含对象损失 :
$\sum_{object}{(conf_{pred}-conf_{true}) * scale_{obj}} + \sum_{noobj}{(iou > 0.5) * scale_{noobj}}\tag{7}$

$i o u > 0.5$ 如上所述, 每一个预测的bbox与某个true_box覆盖率超过0.5, 虽然实际中该bbox中没有对象, 也产生损失；scale是比例因子.

$loss_{class}$ 类别损失 :
$loss_{class} = \sum_{object}{softmax\_cross\_entropy}\tag{8}$

只有有object的grid有 $loss_{class}$

评估

有objectness, 且classification正确的
recall_50 = iou>0.5; recall_75 = iou>0.75

anchor的作用

anchor 其实没什么作用?, 因为模型学习的是相对anchor width和height的比值；模型认为细粒度的grid, 可以有比较多的objects存在, 粗粒度的grid, 相对允许的objects个数少一些；

实际训练标注样本

训练中添加没有object的图片, 应该是没用的, 因为不会产生loss

reference

Keras代码

谓孤勇

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
yolov3

输入输出image: 416 * 416outputgrid_1 (13 * 13 * 3 * (5 + nb_class))grid_2 (26 * 26 * 3 * (5 + nb_class))grid_3 (52 * 52 * 3 * (5 + nb_class))grid_1 输出的是分辨率小, 目标对象很大的objects；相对应 grid_3 输出是分辨率大, 目标对象小的objects；grid_1为例, 有13 * 13 cells, 每个cell中有3个不同大
复制链接

扫一扫

专栏目录