随着目标检测任务对精度与效率要求的不断提升,传统的卷积神经网络(
CNN
)在建模长程依赖和复杂语义关系方面逐渐暴露出其局限性。而视觉Transformer(ViT)
虽然在全局信息建模上表现优异,却因计算开销大、局部细节感知能力不足,在实时检测任务中难以直接部署。本文提出一种面向YOLOv8
的创新架构改进方案 ,引入两个核心模块:D-Mixer(Dual-level Feature Mixer)与TransXNet(Transformed Cross-dimension Network)
,分别实现多尺度特征的全局-局部信息聚合 与空间维度高效压缩 ,构建出一种CNN与ViT深度融合的混合架构 ,在保持高精度的同时兼顾检测速度。
🔥本文贡献亮点
在YOLOv8基础上,我们进行了两项核心模块级创新 ,并成功实现了模型性能的显著提升:
- 重叠空间降维注意力(Overlapped Spatial Reduction Attention, OSRA)
- 混合网络模块D-Mixer(Dual-level Feature Mixer)