文章提出了一种称为 AdaFuse 的自适应时间融合网络,它动态地融合来自当前和过去特征图的通道,以进行强大的时间建模。该方法在必要时重用历史特征(即,动态决定每个层和每个实例保留、重用或跳过哪些通道),目的是提高识别率和效率。该方法可以作为插件操作用于各种基于 2D CNN 的动作识别架构。
该方法的概念图如下:
对于历史特征图和当前特征图,先通过全局平均池化得到特征向量,然后将特征向量输入预测网络,预测网络输出结果pt取值如下:pt=0代表将特征图保留(即进行正常卷积操作);pt=1代表重用历史特征图的第i个通道;pt=2代表丢弃当前特征图,用0填充。
该方法在多个数据集上取得了显著效果:
与其他先进方法的比较如下:
和其他方法在计算量、参数量与准确率的综合对比分析如下:
针对Something-V2数据集上重用、保留、丢弃的特征图数量统计如下(网络架构为ResNet50):
观察统计结果发现,较早的层倾向于跳过更多并减少重用/保留,反之亦然。前几个卷积块通常捕获大空间尺寸的低级特征图,因此通道维度上的“信息密度”应该更小,从而导致跨通道的冗余更多。后面的块通常捕获高级语义,并且特征图的空间维度更小,因此“语义密度”可能更高,跳过的通道更少。