改进YOLOv7系列:最新HorNet结合YOLOv7应用! | 多种搭配,即插即用 | Backbone主干、递归门控卷积的高效高阶空间交互,新增 HorBc结构

本文介绍了如何将HorNet结构应用于YOLOv7,通过递归门控的高阶交互和大内核卷积的长期交互提升模型性能。在YOLOv7中,分别展示了C3HB和HorBc结构的使用方法,实验证明这种方法在多种模型尺寸和设置下都有竞争力。

本专栏包含大量的首发原创改进方式🚀, 所有文章都是全网首发内容。🌟
降低改进难度,改进点包含最新最全的Backbone部分、Neck部分、Head部分、注意力机制部分、自注意力机制部分等完整教程 🚀
💡本篇文章基于 YOLOv7、YOLOv7-Tiny 进行 HorNet完整 高效高阶空间交互 改进。
重点:有很多同学已经反应 该系列教程 提供的网络结构配置 在自有数据集上有效涨点!!!

🔥YOLO系列 + HorNet结构 结合应用 均为 CSDN芒果汁没有芒果 首发更新博文

相比于博主的 YOLOv5+HorNet这篇,这篇新增加了一些更新
内容更新:YOLO中完善加入 (使用频域特征) HorNet系列结构,另外新增全新 HorBc 🔥结构,持续更新(YOLOv5和YOLOv7通用)



在这里插入图片描述

论文地址:https://arxiv.org/abs/2207.14284

一、论文动机

自AlexNet在过去十年中引入以来,卷积神经网络(CNN)在深度学习和计算视觉方面取得了显著进展。CNN有许多优良的特性,使其自然适用于广泛的视觉应用。平移等变性为主要视觉任务引入了有用的归纳偏差,并实现了不同输入分辨率之间的可传递性。高度优化的实现使其在高性能GPU和边缘设备上都非常有效。架构的演变进一步增加了其在各种视觉任务中的受欢迎程度。

基于Transformer的架构的出现极大地挑战了CNN的主导地位。通过将CNN架构中的一些成功设计与新的自注意力机制相结合,视觉Transformer在各种视觉任务上表现出领先的性能,如图像分类、物体检测、语义分割和视频理解。是什么让视觉Transformer比CNN更强大?通过学习视觉Transformer方面的新设计,已经做出了一些努力来改进CNN架构。然而,目前工作尚未从高阶空间交互的角度分析点积自注意力在视觉任务中的有效性。

递归门

评论 45
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

芒果学AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值