摘要:
卷积神经网络(Convolutional Neural Networks,CNNs)在计算机视觉领域取得了巨大的成功,尤其是在目标检测任务中。然而,传统的CNNs结构在处理长距离依赖关系时存在一定的限制。为了解决这个问题,本文提出了一种新的卷积网络结构,结合了Conv2Former和Transformer的优点,用于目标检测任务。该模型在保留传统CNNs的高效性能的同时,能够更好地捕捉长距离的语义依赖关系,从而提高目标检测的准确性。
介绍:
目标检测是计算机视觉中的重要任务之一,其在许多实际应用中起着关键作用。传统的目标检测方法主要基于CNNs结构,如YOLO和Faster R-CNN等。这些方法在处理目标检测问题时取得了显著的成果,但是由于CNNs结构的局限性,其在捕捉长距离的语义依赖关系方面仍存在一定的限制。
为了克服这个问题,我们提出了一种新的卷积网络结构,将Conv2Former和Transformer相结合。Conv2Former是一种基于卷积和Transformer的结构,它在保留传统CNNs的高效性能的同时,引入了Transformer中的自注意力机制,用于更好地建模长距离的语义依赖关系。通过将Conv2Former与YOLOv8结合,我们构建了一种新的基线模型,用于目标检测任务。
模型结构:
我们的模型基于YOLOv8架构ÿ