Abstract
在基础模型的核心是“更多即不同”,这在计算机视觉和自然语言处理中取得了惊人的成功。然而,优化的挑战和Transformer模型固有的复杂性要求向简单性的范式转变。在这项研究中,我们介绍了VanillaNet,这是一种拥抱设计优雅的神经网络架构。通过避免高深度、捷径和像自注意力这样复杂的操作,VanillaNet既简洁又强大。每一层都经过精心设计,旨在紧凑而直接,训练后修剪非线性激活函数以恢复原始架构。VanillaNet克服了固有复杂性的挑战,使其成为资源受限环境的理想选择。其易于理解且高度简化的架构为有效部署开辟了新的可能性。大量实验表明,VanillaNet的性能与著名的深度神经网络和视觉Transformer相当,展示了深度学习中极简主义的力量。VanillaNet这一具有远见的旅程具有重要的潜力,可以重新定义基础模型的格局,挑战现状,为优雅且有效的模型设计开辟新的道路。预训练模型和代码在https://github.com/huawei-noah/VanillaNet