【Scaled-YOLOv4】

最新推荐文章于 2024-08-13 08:40:44 发布

咖啡味儿的咖啡

最新推荐文章于 2024-08-13 08:40:44 发布

阅读量1.2k

点赞数

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/wangdongwei0/article/details/111621029

版权

深度学习专栏收录该内容

14 篇文章 2 订阅

订阅专栏

COCO数据集AP被刷到了55.4%（FPS=15），核心是在YOLOV4上研究模型缩放（model scaling）技术。尽管在算法设计上，该文并没有带来重要亮点，但从工程应用的角度讲， Scaled-YOLOv4 还是不错的，尤其是 YOLOv4-tiny，其设计不仅考虑到计算量和参数量还考虑到内存访问。

代码链接：https://github.com/WongKinYiu/ScaledYOLOv4/tree/yolov4-csp

Abstract

我们证明了使用CSP方法的YOLOv4目标检测网络在向下或者向上缩放时可以保持最优的速度和精度。我们提出了一种模型缩放方法，它不止是可以修改模型的深度、宽度、分辨率，也可以修改模型的结构。YOLOv4- large把coco刷到了55.4%（FPS=15，Tesla V100）

1. Introduction

模型缩放（model scaling ）技术是非常重要的，因为它可以使得目标检测器在不同设备上实现较高的检测精度和推理速度。常用的model scaling technique主要有改变模型backbone的深度（卷积层数）和宽度（卷积核个数），这需要针对不同情况单独训练。比如ResNet网络，在算力低时我们用Resnet-18，算力高时可以用Resnet-152。

Cai等人试图研究一项技术，使得训练一次模型就可以部署到不同的设备上，他们使用了解耦训练、搜索、知识蒸馏技术去解耦和训练子网络，整个网络和子网络都是可以处理相同任务的。Tan等人提出了利用NAS技术在EfficientNet-B0上探索融合多种缩放因素，比如深度、宽度、分辨率。他们利用这个初始网络在给定的算力下寻找最优结构，并将其命名为EfficientNet-B1，然后使用线性缩放技术获得EfficientNetB2到EfficientNetB7结构。Radosavovic等人从庞大的参数搜索空间AnyNet中总结并添加约束条件，然后设计了RegNet，他们发现RegNet最优的深度是60，bottleneck ratio=1，cross-stage=2.5时，性能最优。

通过分析state-of-the-art模型，CSPDarknet53是做YOLO-V4的backbone是最合适的，其模型深度为65， bottleneck ratio=1，width growth ratio between stages=2，与NAS找出的最理想的模型结构非常接近。以YOLOV4为基础，作者进一步研究了model scaling方法，并提出了scaled-YOLOv4。

作者自认为的贡献：

针对小模型，设计了一个高效model scaling方法；
为scaling大的目标检测器，设计了一个简单但有效的方法；
详细的对比分析了所有的model scaling factors；
实验验证了FPN是一个一劳永逸的结构；
结合上面所有，提出了YOLOv4-tiny和YOLO4v4-large。

看下效果，相比V4提高了不少。

2. Related work

2.1. Real-time object detection

略。。。

2.2. Model scaling

传统的model scaling方法就是修改模型的深度，比如VGG-16，VGG-19。近些年NAS发展迅速，NAS-FPN搜索特征金字塔的组合路径，我们可以认为NAS-FPN就是一种模型缩放技术，其主要在stage level执行缩放。至于EfficientNet，它是基于深度，宽度，输入尺寸的融合搜索。EfficientDet是对模型的。。。。