文章目录
摘要
这篇文章我们将YoloV8和ConvNextv2的Block相结合,将最强的CNN Block放入YoloV8中,会发生什么样的反应呢? 我们一起尝试吧!
首先,我们一起来阅读论文,然后再去学习ConvNextV2的Block。学会了Block以后,我们将Block加入到YoloV8的网络中,对比改进后的结果!最后,作总结。
论文翻译
文章目录
摘要
论文链接:ConvNeXt V2
在改进的架构和更好的表示学习框架的推动下,视觉识别领域在21世纪20年代初实现了快速现代化和性能提升。例如,以ConvNeXt[52]为代表的现代ConvNets在各种场景中都表现出了强大的性能。虽然这些模型最初是为使用ImageNet标签的监督学习而设计的,但它们也可能受益于自监督学习技术,如蒙面自编码器(MAE)[31]。然而,我们发现,简单地结合这两种方法会导致性能不佳。在本文中,我们提出了一个全卷积掩码自编码器框架和一个新的全局响应归一化(GRN)层,可以添加到ConvNeXt架构中,以增强通道间的特征竞争。这种自我监督学习技术和架构改进的共同设计产生了一个名为ConvNeXt V2的新模型家族,它显著提高了纯ConvNets在各种识别基准上的性能,包括ImageNet分类、COCO检测和ADE20K分割。我们还提供各种大小的预训练ConvNeXt V2模型