YOLOv9论文翻译

YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information Chien-Yao Wang1,2, I-Hau Yeh2, and Hong-Yuan Mark Liao1,2,3 1Institute of Information Science, Academia Sinica, Taiwan 2National Taipei University of Technology, Taiwan 3Department of Information and Computer Engineering, Chung Yuan Christian University, Taiwan arXiv:2402.13616v1 [cs.CV] 21 Feb 2024 kinyiu@iis.sinica.edu.tw, ihyeh@emc.com.tw, and liao@iis.sinica.edu.tw

正文如下:

       如今的深度学习⽅法重点关注如何设计最合适的⽬标 函数,使得模型的预测结果能够最接近真实情况。同时, 必须设计⼀个适当的架构,可以帮助获取⾜够的信息进⾏ 预测。现有⽅法忽略了⼀个事实,即当输⼊数据经过逐层 特征提取和空间变换时,⼤量信息将会丢失。本⽂将深⼊ 研究数据通过深度⽹络传输时数据丢失的重要问题,即信 息瓶颈和可逆函数。我们提出了可编程梯度信息(PGI) 的概念来应对深度⽹络实现多个⽬标所需的各种变化。 PGI可以为⽬标任务计算⽬标函数提供完整的输⼊信息, 从⽽获得可靠的梯度信息来更新⽹络权值。此外,还设计 了⼀种基于梯度路径规划的新型轻量级⽹络架构——通⽤⾼效层聚合⽹络(GELAN)。GELAN的架构证实了PGI在 轻量级模型上取得了优异的结果。我们在基于 MS COCO 数据集的⽬标检测上验证了所提出的 GELAN 和 PGI。结果表明,与基于深度卷积开发的最先进⽅法相⽐, GELAN 仅使⽤传统的卷积算⼦即可实现更好的参数利⽤ 率。PGI 可⽤于从轻型到⼤型的各种模型。它可以⽤来获 取完整的信息,使得train-fromscratch模型能够⽐使⽤⼤数据集预训练的state-of-theart模型获得更好的结果,⽐较结果如图所⽰1。

        源代码位于: https://github.com/WongKinYiu/yolov9。

图 1. MS COCO 数据集上实时⽬标检测器的⽐较。基于 GELAN 和 PGI 的⽬标检测⽅法在⽬标检测性能⽅⾯超越了之前所有的 从头训练⽅法。在准确性⽅⾯,新⽅法优于 RT DETR [43] 使⽤
⼤型数据集进⾏预训练,并且它的性能也优于基于深度卷积的设 计 YOLO MS [7] 在参数利⽤⽅⾯。

⼀、简介
       基于深度学习的模型在计算机视觉、语⾔处理和语⾳ 识别等各个领域都表现出了⽐过去的⼈⼯智能系统更好的 性能。近年来,研究⼈员深度学习领域的⼈们主要关注如何开发更强⼤的系统架构和学习⽅法,例如CNNs [21–23,42,55,71,72], Trans formers [8, 9, 40, 41, 60, 69, 70], Perceivers [26, 26, 32, 52, 56, 81, 81], 还有 Mambas [17, 38, 80]。此外,⼀些研究⼈员尝试开发更通⽤的⽬标函数,例如损失函数[5,45,46,50,77,78],la bel assignment [10, 12, 33, 67, 79] and auxiliary supervi sion [18, 20, 24, 28, 29, 51, 54, 68, 76]。上述研究都试图精确地找到输⼊和⽬标任务之间 的映射。然⽽,⼤多数过去的⽅法都忽略了输⼊数据在前 馈过程中可能会产⽣不可忽略的信息丢失量。这种信息丢 失可能会导致有偏差的梯度流,随后⽤于更新模型。上述 问题可能导致深度⽹络在⽬标和输⼊之间建⽴不正确的关 联,导致训练后的模型产⽣不正确的预测。 

待续  


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值