ConvNeXt 是 Meta(前 Facebook)AI 团队提出的一种新型卷积神经网络架构,目的是在纯卷积神经网络(CNN)中借鉴和融入 Vision Transformer (ViT) 中一些成功的设计理念,从而提升其性能,使之在视觉任务上达到或超过当时最前沿的 Vision Transformer 模型的表现。
ConvNeXt 可以被视为对 ResNet 系列网络的一次现代化改进,同时吸收了许多来自 Transformer 和深度学习优化领域的新思想。其提出的一个核心理念是,通过引入相对简单的调整和优化,传统的卷积网络依然可以与现代 Transformer 模型竞争,并且有望在计算效率、参数量等方面具有优势。
ConvNeXt 的设计原则
1、基于 ResNet 的改进
ConvNeXt 的设计灵感来自 ResNet(Residual Networks),ConvNeXt 的基本结构延续了 ResNet 中残差模块的概念,但在多个方面进行了优化,以适应更现代的深度学习需求。
2、模块设计调整
ConvNeXt 对卷积网络的基本模块做了一些调整和简化,使其更加高效:
- 替换 3×3 卷积为 7×7 的深度可分离卷积:这是参考了 Vision Transformer 中的大尺寸 patch embedding 的设计。7×7 卷积能够扩大感受野,使模型能够捕捉更多的上下文信息,同时采用深度可分离卷积可以降低计算量。
- 移除 ReLU 激活函数,改用 GELU:GELU(Gaussian Error Linear Unit)是一种较新的激活函数,常用于 Transformer 网络中&