YOLOv3论文笔记

最新推荐文章于 2024-08-05 18:41:17 发布

cherry_yu08

最新推荐文章于 2024-08-05 18:41:17 发布

阅读量1.9k

点赞数 1

分类专栏：深度学习与计算机视觉文章标签： YOLO YOLOv3 计算机视觉

本文链接：https://blog.csdn.net/cherry_yu08/article/details/81102049

版权

深度学习与计算机视觉专栏收录该内容

30 篇文章 19 订阅

订阅专栏

YOLOv3是YOLO的改进版本，新的网络更大更准确，并且图片处理的速度依然很快。
项目代码

1、解决什么问题

多尺度预测（类FPN）
更好的基础分类网络（类ResNet）和分类器

2、使用什么方法

- bounding box预测
使用维度聚类（dimension cluster）作为anchor box来预测边界框（bounding box）。
每个边界框4个参数（tx,ty,tw,th），如果边界框相对于图片左上角偏移（cx,cy）并且前面的边界框（bounding box prior？边界框先验？）大小为（pw, ph），那么对边界框的位置的预测为：
这里写图片描述

loss使用的是均方误差（squared error）；
使用逻辑回归预测每个边框里面对象的分数，若某个边界框与真实值的相似度大于别的边界框，那么这个分数就是1。设置了一个阈值0.5，当边界框不是与真实值重合得最好的但是大于该阈值时，不进行预测。只为每一个真实值（ground truth）分配一个边界框，如果没有将边界框分配给一个真实值，只会导致objectness的loss而不影响coordinate和prediction的loss。
- 类别预测
每个框使用多个分类标签预测边界框可能包含的类。这里分类的激活函数不使用softmax，因为我们发现如果想要达到良好的性能，softmax不是必要的，只是使用独立的逻辑分类器就可以达到。在训练期间，使用二元交叉熵损失函数进行类预测。
当迁移到更复杂的领域（如Open Images Dataset [7]）时，这个公式会有所帮助。在这个数据集中有许多重叠的标签（即女人和人）。使用softmax假设每个盒子只有一个类别，而实际情况通常并非如此。多标签方法可以更好地模拟数据。
- 多尺度预测（Predictions Across Scales）
YOLOv3在三个不同的尺度预测box。使用Open Image数据集来提取这三个不同尺度的特征。
尺度1: 在基础网络之后添加一些卷积层再输出box信息.
尺度2: 从尺度1中的倒数第二层的卷积层上采样(x2)再与最后一个16x16大小的特征图相加,再次通过多个卷积后输出box信息.相比尺度1变大两倍.
尺度3: 与尺度2类似,使用了32x32大小的特征图.
这里写图片描述
使用k-means聚类来确定边界框：任意选择9个cluster和三个尺度，然后在尺度上均匀的划分cluster。在COCO数据集中的9个cluster为：

这个cluster表示什么？
- 特征提取
特征提取使用的是另一个全新的网络，该网络是YOLOv2、Darknet-19和Resnet的混合体，一共有53个卷积层，所以称之为Darknet53。
这里写图片描述
Darknet53比Darknet19更强大，比Resnet101和Resnet102效率更高：

以256*256大小的图片测试，
Darknet-53的性能与最先进的分类器相当，但浮点运算更少，速度更快，
Darknet-53比ResNet-101更好，速度提高1.5倍。 Darknet-53具有与ResNet-152相似的性能，速度提高了2倍。
- 训练
直接输入完整的图像进行训练，训练过程中加入了以下操作：
multi-scale
data augmentation
batch normalization
等等？
使用Darknet神经网络框架进行培训和测试。