CVPR2021|特征金字塔的新方式YOLOF

最新推荐文章于 2022-10-03 22:36:08 发布

CV技术指南(公众号)

最新推荐文章于 2022-10-03 22:36:08 发布

阅读量807

点赞数 1

分类专栏：论文分享文章标签：深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/KANG157/article/details/115259667

版权

论文分享专栏收录该内容

69 篇文章 10 订阅

订阅专栏

论文：You Only Look One-level Feature

下载地址：https://arxiv.org/abs/2103.09460

代码: https://github.com/megvii-model/YOLOF

Introduction

构建特征金字塔最普遍使用的方式是FPN，FPN的成功主要有两点，一是多尺度特征融合，二是分而治之，所谓分而治之就是对不同尺度的目标在不同的分辨率上检测。

作者基于FPN进行了一项实验。针对多尺度特征融合提出多层输入和单层输入的方式，针对分而治之提出在单层检测和多层检测的方式，两者结合就是如下图所示的MiMo，SiMo，MiSo，SiSo。

根据图a和b可得出多尺度融合的特征所带来的精度提升很少。对比图a和c，分而治之的方式可带来12的mAP的提升。

这可以得出两个结论：

(1) 这表明C5层基本融合了全部语义信息，没必要进行多尺度融合。

(2) 分而治之带来的益处远多于多尺度特征融合。

然而相比于单层检测，使用分而治之意味着需要更多的内存，降低推理速度，且对于one-stages的检测器来说结构更复杂。

基于第一个实验的结论，作者进行了第二个实验--比较MiMo和SiSo这两种Encoder-Decoder方式。

实验结果如下图所示，MiMo的精度比SiSo更高，但推理速度慢了很多，且MiMo与SiSo的内存之比为134G vs 6G。

经过分析，SiSo精度低的原因是有两个：

(1) 与C5的特征感受野的匹配的尺度范围有限。

(2) 在单层通过稀疏anchor方式产生的positive anchor数量极其不平衡。

基于以上两个实验，作者提出不再使用多尺度融合，而是要扩大C5所能匹配的尺度范围，这样能在提高精度的同时，充分利用SiSo的速度和低内存的优点。所使用的方式就是对这两个问题进行改进。

Methods

提出Dilated Encoder来解决C5的尺度匹配范围的问题，提出Uniform Matching来解决单层positive anchors数量不平衡的问题。

Dilated Encoder

为方便读者理解，先补充一点说明，特征金字塔的一种方式就是FPN这种使用降采样来构建，另一种方式就是通过多支路使用不同空洞率的空洞卷积 (dilation convolution)来构建。

关于特征金字塔这种技术，在很多论文中提出了一些新的特征融合方式，在下一篇中将对特征金字塔进行技术总结，感兴趣的读者请关注公众号《CV技术指南》的技术总结部分。

在这里就是使用了第二种方式来构建特征金字塔，但有所不同的是，这里并不是使用多支路，而是将其串联，一条支路中使用四种空洞率的空洞卷积，看图更容易理解。

Dilated Encoder由一个Projector和四个Residual Blocks组成,其中Residual Blocks中3x3卷积的空洞率是不一样的。

Uniform Matching

MiMo和SiSo产生的anchor的数量比为100K vs 5K，由于使用Max-IOU这种匹配方式，大的GT boxes会比小的GT boxes产生更多的positive anchor，这使得网络在训练过程中将更多的注意放在了大的 GT boxes，而忽视了小的。

因此Uniform Matching的方式是使用最近邻方式来匹配。具体方式是选择GT boxes最近的K个boxes, 这样的方式不管GT boxes大小可以匹配相同数量的Boxes。

conclusion

1.以608x608的输入，YOLOF 在2080Ti上以60fps的速度实现了44.3 mAP的精度。

2.与YOLO_v4相比，在提高了0.8mAP的基础上快了13%。

3.达到RetinaNet的精度，并比它快2.5倍。

4.仅用了一层特征就达到了DETR的精度，训练速度快了7倍。

本文来源于公众号 CV技术指南的论文分享系列。

欢迎关注公众号 CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。

在公众号中回复关键字 “技术总结” 可获取以下文章的汇总pdf。

其它文章

北京大学施柏鑫：从审稿人视角，谈谈怎么写一篇CVPR论文

Siamese network总结

计算机视觉专业术语总结(一)构建计算机视觉的知识体系

欠拟合与过拟合技术总结

归一化方法总结

论文创新的常见思路总结

CV方向的高效阅读英文文献方法总结

计算机视觉中的小样本学习综述

知识蒸馏的简要概述

优化OpenCV视频的读取速度

损失函数技术总结

注意力机制技术总结

特征金字塔技术总结

池化技术总结

数据增强方法总结

CNN结构演变总结（一）经典模型

CNN结构演变总结（二）轻量化模型

CNN结构演变总结（三）设计原则

如何看待计算机视觉未来的走向

CNN可视化技术总结（一）-特征图可视化

CNN可视化技术总结（二）-卷积核可视化

CNN可视化技术总结（三）-类可视化

CNN可视化技术总结（四）-可视化工具与项目

CV技术指南(公众号)

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
CVPR2021|特征金字塔的新方式YOLOF

论文：You Only Look One-level Feature下载地址：https://arxiv.org/abs/2103.09460代码: https://github.com/megvii-model/YOLOFIntroduction构建特征金字塔最普遍使用的方式是FPN，FPN的成功主要有两点，一是多尺度特征融合，二是分而治之，所谓分而治之就是对不同尺度的目标在不同的分辨率上检测。作者基于FPN进行了一项实验。针对多尺度特征融合提出多层输入和单层输入的方式，针..
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。