本专栏包含大量的首发原创改进方式🚀, 所有文章都是全网首发内容。🌟
降低改进难度,改进点包含最新最全的Backbone部分、Neck部分、Head部分、注意力机制部分、自注意力机制部分等完整教程 🚀
💡本篇文章基于 YOLOv7、YOLOv7-Tiny 进行 HorNet完整 高效高阶空间交互 改进。
重点:有很多同学已经反应 该系列教程 提供的网络结构配置 在自有数据集上有效涨点!!!
🔥YOLO系列 + HorNet结构 结合应用 均为 CSDN芒果汁没有芒果 首发更新博文
相比于博主的 YOLOv5+HorNet这篇,这篇新增加了一些更新
内容更新:YOLO中完善加入 (使用频域特征) HorNet系列结构,另外新增全新 HorBc 🔥结构,持续更新(YOLOv5和YOLOv7通用)
文章目录
论文地址:https://arxiv.org/abs/2207.14284
一、论文动机
自AlexNet在过去十年中引入以来,卷积神经网络(CNN)在深度学习和计算视觉方面取得了显著进展。CNN有许多优良的特性,使其自然适用于广泛的视觉应用。平移等变性为主要视觉任务引入了有用的归纳偏差,并实现了不同输入分辨率之间的可传递性。高度优化的实现使其在高性能GPU和边缘设备上都非常有效。架构的演变进一步增加了其在各种视觉任务中的受欢迎程度。
基于Transformer的架构的出现极大地挑战了CNN的主导地位。通过将CNN架构中的一些成功设计与新的自注意力机制相结合,视觉Transformer在各种视觉任务上表现出领先的性能,如图像分类、物体检测、语义分割和视频理解。是什么让视觉Transformer比CNN更强大?通过学习视觉Transformer方面的新设计,已经做出了一些努力来改进CNN架构。然而,目前工作尚未从高阶空间交互的角度分析点积自注意力在视觉任务中的有效性。

本文介绍了如何将HorNet结构应用于YOLOv7,通过递归门控的高阶交互和大内核卷积的长期交互提升模型性能。在YOLOv7中,分别展示了C3HB和HorBc结构的使用方法,实验证明这种方法在多种模型尺寸和设置下都有竞争力。
订阅专栏 解锁全文
1137

被折叠的 条评论
为什么被折叠?



