近年来,随着深度学习在计算机视觉领域的广泛应用,目标检测任务的精度和效率不断被推上新的高度。
YOLO
系列作为实时检测算法的代表,在工业界和学术界都具有广泛影响力。而YOLOv8
更是在前代基础上进一步优化了模型结构,提升了检测性能。然而,在面对小目标检测任务时,YOLOv8
仍然存在一定的局限性。为了解决这一问题,本文引入一种来自ICLR 2023
的轻量级语义分割网络SeaFormer
中的核心模块 ——Sea_AttentionBlock
,并将其与YOLOv8
中的C2f
模块相结合,提出了一种新的改进方案,显著提升了模型在多个数据集上的检测精度,特别是在小目标场景下效果尤为突出。
1. 背景动机
随着 Vision Transformer(ViT)在计算机视觉领域逐步超越传统 CNN 模型,在图像分类、目标检测、语义分割等任务中展现出卓越性能,其应用前景日益广泛。然而,ViT 类模型通常伴随着高昂的计算成本和内存需求,