论文地址:https://arxiv.org/abs/2305.12972
代码地址:GitHub - huawei-noah/VanillaNet
简而浅的直桶状网络具有非常优秀的推理效率,但其训练难度较高,难以取得优异性能。自AlexNet与VGG之后,鲜少有这种"直桶"状且性能优异的网络出现,其中的代表当属RepVGG与ParNet。
- 通过引入结构重参数机制,RepVGG将"直桶状"网络重新焕发生机。但RepVGG的深度仍然有20+的深度,感兴趣的同学可以查看RepVGG|让你的ConVNet一卷到底,plain网络首次超过80%top1精度。
- 后来,Princeton大学的邓嘉团队提出了深度为12的网络并在ImageNet数据集上达到了80.7%,但引入的注意力导致了额外的跳过连接,仍为达到极限推理效率。对ParNet一文感兴趣的同学可查阅12层也能媲美ResNet?邓嘉团队提出最新力作ParNet,ImageNet top1精度直冲80.7%
上图给出了本文所提VanillaNet架构示意图。
- 对于Stem部分,采用4×4卷积进行特征变换;
- 对于body部分的每个stage,首先采用MaxPool进行特征下采样,然后采用一个1×1进行特征处理;
- 对于head部分,采用两个非线性层进行分类处理。
值得注意的是,(1) 每个stage只有一个1×1卷积;(2)VanillaNet没有跳过连接。
尽管VanillaNet非常简单且足够浅,但其弱非线性能力会限制其性能。为此,作者从训练策略与激活函数两个维度来解决该问题。