YOLOv9论文翻译

最新推荐文章于 2024-10-25 11:59:44 发布

joncui

最新推荐文章于 2024-10-25 11:59:44 发布

阅读量1.0k

点赞数 26

文章标签：人工智能

本文链接：https://blog.csdn.net/book_mastercat/article/details/136263400

版权

YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information Chien-Yao Wang1,2, I-Hau Yeh2, and Hong-Yuan Mark Liao1,2,3 1Institute of Information Science, Academia Sinica, Taiwan 2National Taipei University of Technology, Taiwan 3Department of Information and Computer Engineering, Chung Yuan Christian University, Taiwan arXiv:2402.13616v1 [cs.CV] 21 Feb 2024 kinyiu@iis.sinica.edu.tw, ihyeh@emc.com.tw, and liao@iis.sinica.edu.tw

正文如下：

如今的深度学习⽅法重点关注如何设计最合适的⽬标函数，使得模型的预测结果能够最接近真实情况。同时，必须设计⼀个适当的架构，可以帮助获取⾜够的信息进⾏预测。现有⽅法忽略了⼀个事实，即当输⼊数据经过逐层特征提取和空间变换时，⼤量信息将会丢失。本⽂将深⼊研究数据通过深度⽹络传输时数据丢失的重要问题，即信息瓶颈和可逆函数。我们提出了可编程梯度信息（PGI）的概念来应对深度⽹络实现多个⽬标所需的各种变化。 PGI可以为⽬标任务计算⽬标函数提供完整的输⼊信息，从⽽获得可靠的梯度信息来更新⽹络权值。此外，还设计了⼀种基于梯度路径规划的新型轻量级⽹络架构——通⽤⾼效层聚合⽹络（GELAN）。GELAN的架构证实了PGI在轻量级模型上取得了优异的结果。我们在基于 MS COCO 数据集的⽬标检测上验证了所提出的 GELAN 和 PGI。结果表明，与基于深度卷积开发的最先进⽅法相⽐， GELAN 仅使⽤传统的卷积算⼦即可实现更好的参数利⽤率。PGI 可⽤于从轻型到⼤型的各种模型。它可以⽤来获取完整的信息，使得train-fromscratch模型能够⽐使⽤⼤数据集预训练的state-of-theart模型获得更好的结果，⽐较结果如图所⽰1。

源代码位于： https://github.com/WongKinYiu/yolov9。

图 1. MS COCO 数据集上实时⽬标检测器的⽐较。基于 GELAN 和 PGI 的⽬标检测⽅法在⽬标检测性能⽅⾯超越了之前所有的从头训练⽅法。在准确性⽅⾯，新⽅法优于 RT DETR [43] 使⽤
⼤型数据集进⾏预训练，并且它的性能也优于基于深度卷积的设计 YOLO MS [7] 在参数利⽤⽅⾯。

⼀、简介
基于深度学习的模型在计算机视觉、语⾔处理和语⾳识别等各个领域都表现出了⽐过去的⼈⼯智能系统更好的性能。近年来，研究⼈员深度学习领域的⼈们主要关注如何开发更强⼤的系统架构和学习⽅法，例如CNNs [21–23,42,55,71,72], Trans formers [8, 9, 40, 41, 60, 69, 70], Perceivers [26, 26, 32, 52, 56, 81, 81], 还有 Mambas [17, 38, 80]。此外，⼀些研究⼈员尝试开发更通⽤的⽬标函数，例如损失函数[5,45,46,50,77,78]，la bel assignment [10, 12, 33, 67, 79] and auxiliary supervi sion [18, 20, 24, 28, 29, 51, 54, 68, 76]。上述研究都试图精确地找到输⼊和⽬标任务之间的映射。然⽽，⼤多数过去的⽅法都忽略了输⼊数据在前馈过程中可能会产⽣不可忽略的信息丢失量。这种信息丢失可能会导致有偏差的梯度流，随后⽤于更新模型。上述问题可能导致深度⽹络在⽬标和输⼊之间建⽴不正确的关联，导致训练后的模型产⽣不正确的预测。

待续