本文内容:添加DynamicConv
目录
论文简介
大规模视觉预训练显著提高了大型视觉模型的性能。然而,我们观察到低FLOPs的缺陷,即现有的低FLOPs模型不能从大规模的预训练中获益。在本文中,我们引入了一种新的设计原则,称为ParameterNet,旨在增加大规模视觉预训练模型中的参数数量,同时最小化FLOPs的增加。我们利用动态卷积将额外的参数合并到网络中,而FLOPs仅略有上升。ParameterNet方法允许低flops网络利用大规模视觉预训练。此外,我们将参数网的概念扩展到语言领域,在保持推理速度的同时增强推理结果。
在大规模ImageNet-22K上的实验证明了该方案的优越性。例如,ParameterNet-600M可以在ImageNet上实现比广泛使用的Swin Transformer更高的精度(81.6% vs. 81.6%)。
80.9%), FLOPs更低(0.6G vs. 4.5G)。在语言领域