文章介绍了 A3D,这是一种自适应 3D 网络,可以通过一次性训练在广泛的计算约束下进行推断。它不是以网格搜索方式训练多个模型,而是通过在网络宽度和时空分辨率之间进行权衡来生成良好的配置。
论文提出了子网络与全网络相互训练的方式,即时空蒸馏策略,以促进不同网络配置之间的知识转移。网络主干采用SlowFast,通过对网络宽度系数和时空分辨率因子在一定范围内随机采样,组合出多种训练配置,通过多路径权衡和自适应融合模块使模型在不同配置下运行,在一定的计算预算下选择最佳配置,构成最佳配置预算表。
论文提出的训练范式适用于所有3D卷积网络,A3D在Kinetics的各种计算资源限制下性能优于SlowFast,并且对于跨数据集和任务转移同样具有有效性。