yolov9来了，还能冲！继续卷！

最新推荐文章于 2024-07-22 13:01:22 发布

玻尔的魔法帽

最新推荐文章于 2024-07-22 13:01:22 发布

阅读量749

点赞数 11

文章标签：人工智能 YOLO

本文链接：https://blog.csdn.net/MysticOrigin/article/details/136333374

版权

去年RTDETR出来的时候，本以为大家会在这个赛道卷，没想到先卷起来的依旧是这个老赛道！

yolov8和RTDETR带来了惊人的速率和便捷的训练部署方式，相信大家都开始熟悉这个AI工具进行各种生产。

不到一年，yolov9来了！

看看这张图！无论是轻量级还是大型模型，它都完胜，一举成为目标检测领域新 SOTA：

话不多说，让我们看一下yolov9到底做了哪些改进，引入了何种trick？

文中提到，基于GELAN和PGI的目标检测方法在目标检测性能上超越了以往所有从头开始训练的方法。在精度方面，新方法优于使用大数据集预训练的RT DETR，在参数利用率方面也优于基于深度卷积的设计YOLO MS。

一般而言，深度学习在预测模型中的应用，主要是为了让预测的结果尽可能地接近真实情况。为了实现这一目标，研究人员在不断地探索如何设计出最佳的目标函数。目标函数在深度学习中扮演着至关重要的角色，它决定了模型在训练过程中如何调整参数以最小化预测误差。

除了目标函数的设计，选择合适的模型架构同样关键。一个好的架构能够有效地从输入数据中提取有用的信息，为后续的预测任务提供有力支持。在构建模型架构时，研究人员需要考虑如何平衡模型的复杂性和泛化能力，以确保模型既能够处理复杂的任务，又能够避免过拟合或欠拟合的问题。

然而，尽管深度学习方法在预测任务中取得了显著的成果，但作者认为现有方法存在一个不可忽视的问题：在数据经过模型逐层特征提取和空间变换的过程中，会丢失大量的信息。这意味着，尽管模型能够从数据中提取出一些有用的特征，但很多重要的细节和上下文信息可能在这个过程中被忽略或丢失。

1、可编程梯度信息”(PGI)。

这是作者所提出来的，听起来很复杂，但其实它的目的是让深度学习的模型能更好地学习和预测。

当我们用深度学习模型处理任务时，数据会经过很多层的处理，就像我们剥洋葱一样。但在这个过程中，一些重要的信息可能会丢失，就像我们剥洋葱时可能会错过一些细节。

为了解决这个问题，研究人员提出了PGI。它的想法是在模型中加入一个辅助的部分，这个部分可以帮助模型生成更可靠的梯度信息。梯度就像是模型学习的方向，有了更可靠的梯度，模型就能更好地学习和预测。

这个辅助部分的设计很巧妙，它可以避免在模型学习时丢失重要的信息。这就像我们在剥洋葱时，用一个工具来帮助我们记住每一层的特点，这样就不会错过任何重要的细节了。

此外，PGI还可以自由选择适合任务的损失函数，这样模型就能更准确地学习和预测。而且，PGI可以应用于不同规模的深度神经网络，比传统的深度监督方法更通用。

举个不太恰当的例子，假设我们要教一个小学生学习加法。我们可以用很多种方法，比如让他直接算，或者给他一些提示。但如果我们发现他在算的过程中经常犯错，那么我们可以考虑给他一个辅助工具，比如一个加法表，来帮助他更准确地学习。这样，他就能更好地掌握加法，而不会错过任何重要的细节了。这就是PGI的作用，它帮助深度学习模型更好地学习和预测，避免在学习的过程中丢失重要的信息。

其中，(a)代表的是路径聚合网络，(b)是可逆列，(c)是传统深度监督方法，而(d)则是作者提出的可编程梯度信息，简称PGI。

PGI主要由三个关键部分组成：

首先是主分支，这是模型进行推理的主要架构，负责处理输入数据并生成预测结果。

其次是辅助可逆分支，它的作用是为主分支生成可靠的梯度信息。这些梯度信息在模型训练过程中起到至关重要的作用，它们帮助主分支进行反向传播，调整模型参数，从而优化预测结果。这个辅助分支的设计非常巧妙，它可以确保在逐层特征提取和空间变换的过程中，尽可能保留关键信息，避免信息丢失。

最后是多级辅助信息。这部分的作用是控制主分支学习可规划的多级语义信息。通过在不同语义层次上对梯度信息传播进行编程，PGI能够确保模型在训练过程中学习到最佳的特征表示，从而提高预测准确性。

2、基于ELAN设计了广义ELAN (GELAN)

该模型是基于CSPNet架构和扩展的ELAN网络的灵感而设计的，通过模仿这两种网络的特点，它成功地结合了梯度路径规划的设计理念。这种设计方式使得该模型能够支持任何计算块，无论是CSPNet还是ELAN，都能在其中发挥出其优势。因此，该模型具有高度的灵活性和通用性，能够适应不同的深度学习应用场景。

我们看看结果吧，当然这是作者的验证哈，我们下期自己跑一个！

可以看到，yolov9的效果确实惊艳，但是上手之后才知道适不适合自己。毕竟，我还用着千年之前的yolov5呢，哈哈哈！

玻尔的魔法帽

关注

11
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
yolov9来了，还能冲！继续卷！

这就是PGI的作用，它帮助深度学习模型更好地学习和预测，避免在学习的过程中丢失重要的信息。该模型是基于CSPNet架构和扩展的ELAN网络的灵感而设计的，通过模仿这两种网络的特点，它成功地结合了梯度路径规划的设计理念。在构建模型架构时，研究人员需要考虑如何平衡模型的复杂性和泛化能力，以确保模型既能够处理复杂的任务，又能够避免过拟合或欠拟合的问题。最后是多级辅助信息。其中，(a)代表的是路径聚合网络，(b)是可逆列，(c)是传统深度监督方法，而(d)则是作者提出的可编程梯度信息，简称PGI。
复制链接

扫一扫