Abstract
在基础模型的核心是“更多即不同”,这在计算机视觉和自然语言处理中取得了惊人的成功。然而,优化的挑战和Transformer模型固有的复杂性要求向简单性的范式转变。在这项研究中,我们介绍了VanillaNet,这是一种拥抱设计优雅的神经网络架构。通过避免高深度、捷径和像自注意力这样复杂的操作,VanillaNet既简洁又强大。每一层都经过精心设计,旨在紧凑而直接,训练后修剪非线性激活函数以恢复原始架构。VanillaNet克服了固有复杂性的挑战,使其成为资源受限环境的理想选择。其易于理解且高度简化的架构为有效部署开辟了新的可能性。大量实验表明,VanillaNet的性能与著名的深度神经网络和视觉Transformer相当,展示了深度学习中极简主义的力量。VanillaNet这一具有远见的旅程具有重要的潜力,可以重新定义基础模型的格局,挑战现状,为优雅且有效的模型设计开辟新的道路。预训练模型和代码在https://github.com/huawei-noah/VanillaNet
详细结构与测试结果
随着人工智能芯片的发展,神经网络推理速度的瓶颈不再是FLOPs或参数,因为现代GPU可以轻松进行强大的并行计算。相反,它们复杂的设计和深度阻碍了它们的速度