【论文解读】YOLOR: 2021年YOLO系列目标检测的最强王者

最新推荐文章于 2023-03-13 17:42:58 发布

iamrealAI

最新推荐文章于 2023-03-13 17:42:58 发布

阅读量1.2w

点赞数 9

分类专栏：论文解读计算机视觉深度学习文章标签：目标检测计算机视觉深度学习 YOLO YOLOR

本文链接：https://blog.csdn.net/AaronYKing/article/details/123804988

版权

图表数据来源：

EfficientDet: https://arxiv.org/pdf/2011.08036.pdf

YOLOv3: https://arxiv.org/pdf/2011.08036.pdf

YOLOv4: https://github.com/AlexeyAB/darknet

YOLOv4-Scaled: https://github.com/WongKinYiu/ScaledYOLOv4

YOLO-PPv2: https://arxiv.org/pdf/2104.10419.pdf

YOLOv5: https://arxiv.org/pdf/2104.10419.pdf

YOLOX: https://github.com/Megvii-BaseDetection/YOLOX

YOLOR: https://github.com/WongKinYiu/yolor

YOLOF: https://arxiv.org/pdf/2103.09460.pdf

YOLOS: https://arxiv.org/pdf/2106.00666.pdf

YOLOP: https://arxiv.org/pdf/2108.11250.pdf

图表统计时间：2021年11月-12月

本篇文章是对目标检测YOLO系列的性能总结，主要介绍了2021年YOLO系列的最高精度YOLOR是怎样炼成的。

YOLOR出自论文You Only Learn One Representation: Unified Network for Multiple Tasks，受人类学习方式（使用五官，通过常规和潜意识学习，总结丰富的经验并编码存储，进而处理已知或未知的信息）的启发，本篇论文提出了一个统一的网络来同时编码显式知识和隐式知识，在网络中执行了kernel space alignment（核空间对齐）、prediction refinement（预测细化）和 multi-task learning（多任务学习），同时对多个任务形成统一的表示。结果表明神经网络中引入隐式知识有助于所有任务的性能提升，进一步的分析发现隐式表示之所以能带来性能提升，是因为其具备了捕获不同任务的物理意义的能力。

paper: https://arxiv.org/abs/2105.04206

code: https://github.com/WongKinYiu/yolor

论文作者 | Kin-Yiu Wong等

一、YOLOR思想动机

图1：人可以根据同一幅输入图像回答不同问题，本文也旨在训练一个单一的神经网络来服务于多个任务。

如图1所示，人可以从多个角度来分析同一个目标，然而通常训练CNN时只给予了一个角度，也就是说针对某一个任务得到的CNN特征很难适用于其他问题。作者认为造成上述问题的原因主要是模型只提取了神经元特征而丢弃了隐式知识的学习运用，然而就像人脑一样隐式知识对分析各种各样的任务是非常有用的。

人类对隐式知识的学习通常通过潜意识，然而并没有系统的定义怎样学习和获得隐式知识。对于神经网络而言，一般将浅层特征定义为显式知识，深层特征定义为隐式知识。本文将直接可观察的知识定义为显式知识，隐藏在神经网络中且无法观察的知识定义为隐式知识。

图2：多目的神经网络架构。（a）不同任务对应不同模型；（b）不同任务共享骨干网络，使用不同的输出头；（c）本文提出的统一网络：融合显式知识和隐式知识的一个表征服务多个任务。

如图2所示，本文提出了一个统一的网络来集成显式知识和隐式知识，通过学习统一的表达，使得各个子表示能够适用于不同任务。基于前人工作的理论基础，本文结合压缩感知和深度学习来构建统一网络。

本文主要贡献如下：

1. 提出了一个可同时完成多种任务的统一网络，它通过融合显式知识和隐式知识学习一个可以完成多个任务的统一表征，提出的网络可以有效的提升模型的表现，仅增加千分之一不到的计算成本；

2. 通过 kernel space alignment（核空间对齐）、prediction refinement（预测细化）和 multi-task learning（多任务学习）来完成隐式知识的学习，并验证了其有效性；

3. 分别讨论了隐式知识的建模方式，包括向量、神经网络、矩阵分解，并验证了这些方式的有效性；

4. 证实了所提出的内隐表征学习方法能够准确地对应于特定的物理特征，并以视觉的方式进行了呈现；还证实了如果算子符合目标的物理意义，它可以用来整合隐式知识和显式知识，并会产生乘数效应；

5. 与SOTA比较，YOLOR能够实现和目标检测Scaled-YOLOv4-P7一样的精度，但是推理速度快了88%。

二、隐式知识学习

2.1 隐式知识如何工作

隐式表征 $\textbf{z}_{i}$ 是与观察不相关的，它可以是一个常量tensor $Z = \left\{\textbf{z}_{1},\textbf{z}_{2},...,\textbf{z}_{k} \right\}$ 。下面将介绍隐式知识是如何作为一个常量tensor在多个任务中作用的。