YOLOv10核心改进点解读

The moon forgets

已于 2024-05-29 21:47:26 修改

阅读量1k

点赞数 14

文章标签： YOLO 深度学习机器学习人工智能 python 计算机视觉

于 2024-05-29 14:02:08 首次发布

本文链接：https://blog.csdn.net/w_t_f/article/details/139248381

版权

YOLOv10核心改进点解读

Abstract
Methodology
Experiments
总结

原文：https://arxiv.org/pdf/2405.14458
源码：https://github.com/THU-MIG/yolov10
先上图
在这里插入图片描述

Abstract

主要贡献点：

dual assignments for NMS-free
the holistic efficiency-accuracy driven model design strategy

Methodology

Consistent Dual Assignments for NMS-free Training

yolo一簇通常利用TAL来为每个实例分配多个正样本，但也因此需要额外的后处理来处理冗余的检测结果

Task Alignment Learning(TAL),感觉就是所谓one-stage的概念，使用一组锚点去做定位和分类
TOOD: Task-aligned One-stage Object Detection

Dual label assignments

二重标签分配

yolo进化到v9，依然还是没有做完全的end-to-end，依然保留了NMS操作的原因之一就是one-stage本身就存在正负样本不平衡的问题。
在这里插入图片描述
简单来说v10采用了两组检测头，在原有的一组one-to-many的基础上，增加了一组one-to-one的检测头，并使用这组one-to-one进行标签分配。在推理的时候，只保留one-to-one的头从而避免了NMS，采用top-k 在更短的训练时间消耗下，实现了和匈牙利匹配相同的性能。

Consistent matching metric

$m(\alpha ,\beta )=s\cdot p^{\alpha} \cdot IoU(\hat{b},b)^{\beta }$

计算cost时综合考虑score和iou，结合分类和定位两个分支的信息(好像v8已经在用了？：传送门)作者指出，推理时只使用one-to-one的检测头，所以训练过程中是尽可能让one-to-one向one-to-many检测头的方向优化，因此对两个检测头的监督差异进行分析。作者指出，两个检测头输出的score和box的位置是一致的，差异点在于不同的分类目标。简而言之，one-to-one代表了one-to-many中最优的结果(如听一席话)。

Holistic Efficiency-Accuracy Driven Model Design

整体性效率-精度驱动的模型设计
虽然YOLO系列已经做的很好了，但是还是有冗余和提升的空间

Efficiency driven model design.

更轻量化的分类头
在这里插入图片描述
YOLO系列的分类头和回归头共享特征权重，作者指出分类头参数更多但对结果的影响反而更小，因此使用深度可分离卷积进行轻量化。

特征空间解耦下采样
常规的下采样通常依然是使用stride为2的卷积操作，使用了深度可分离卷积，先进行pointwise convolution实现特征升维，再进行depthwise convolution实现尺寸下采样。

新的block设计 – Rank-guided block
在这里插入图片描述
YOLO系列通常全局范围内采用同一个bottleneck block，作者利用intrinsic rank计算每一个stage的参数冗余程度(计算每一个stage中最后一个block中最后一个卷积的数值秩，即大于阈值的奇异值的数量，阈值默认为最大奇异值的1/2)，通过分析后发现，全局相同的block还存在改进的空间……
在这里插入图片描述
因此作者提出了由秩适应的block，包括由深度可分离卷积组成的compact inverted block(CIB)，以及由秩引导的block分配策略，即自上而下逐层进行无损替换(有损就不替换……)