发表在CVPR2020。
主要工作:将连续的视频帧根据时间间隔分为多组,然后通过一个注意力模块和组间融合模块进行集成,同时,为了对齐大尺度运动的视频帧,采取了与以往基于光流或者可变卷积不同的对齐方式,本文采用的是计算两个连续帧之间的单应性矩阵,然后将邻帧扭曲到参考帧。
整体架构
组内融合模块(Intra-group Fusion Module)
包括三个部分,第一部分有3个单元作为空间特征提取,每个单元由一个3x3卷积层、BN和ReLU组成,每个卷积层根据不同的帧率采用不同的扩张率,主要是基于帧的时间间隔大,运动幅度也比较大,反之运动幅度较小;第二部分使用3x3x3的3D卷积用于时空特征融合;最后每组产生的组级别融合特征采用2D dense block里面的18个2D单元,用于进一步整合组内帧信息。
组间融合模块 (Inter-group Fusion Module)
由于邻帧与参考帧更加相似,慢帧率的组级别特征会有较丰富的信息,而快帧率的组级别特征会捕捉一些邻帧丢失的细节信息, 时间注意力作为一种指导,有效地整合不同时间间隔组的特征