本文是普林斯顿大学的Jia Deng团队的最新力作ParNet:它凭借12层的深度网络在ImageNet上达到了80.7%的top-1精度 。所提ParNet以RepVGG的模块为出发点,同时提出了针对非深度网络设计的SSE模块构建了一种新型的模块RepVGG-SSE 。所提方案凭借非常浅的结构取得了非常高的性能,比如:ImageNet的80.7% ,CIFAR10的96%,CIFAR100的81%,MS-COCO的48%。此外,作者还分析了该结构的缩放规则并说明了如何不改变网络提升提升性能。最后,作者还提供了一份证明:非深度网络如何用于构建低延迟识别系统。
从上图可以看出,虽然ParNet 网络结构,没有在深度上扩展网络,其实这里可以看作是从宽度上进行了扩展。ParNet采用了类VGG模块。一般来讲,VGG风格网络要比ResNet的训练难度更大;而结构重参数化(如RepVGG)可以有效解决该训练难问题。作者从RepVGG 网络出发进行修改,由于原始RepVGG 网络中的3×3卷积表达能力有限,作者在这里增加了一个跳连接的SE 网络、
除了RepVGG-SSE(它的输入与输出具有相同尺寸)外,ParNet还包含一个下采样与融合模块。
- 下采样模块:它用于降低分辨率提升宽度以促进多尺度处理。它同样跳过连接分支,它添加了一个与卷积并行的单层SE模块,此外还在1×1卷积分支添加了2D均值池化。
- 融合模块:它用于融合不同分辨率的信息。它类似于下采样模块但包含额外的concat层。除了concat外,它的输入通道数更多。因此,为降低参数量,我们采用g=2的组卷积。
其实说实话,看到这个网络我突然感觉ResNet50 还是比较优秀的,作者在这里增加了FLOPs但是整体网络准确度相比于ResNet50 并没有显著的提升。另外这篇文章和hrnet 还是比较像的。从这边文章可以看出现在神经网络方面的创新越来越难了。感觉大家都是提出一些比较虚的概念和起了比较新颖的名字。当然我也没啥资格批评大佬,我也只是发发论文混口饭吃吃。