Efficient Spatio-Temporal Modeling Methods for Real-Time Violence Recognition
IEEE Access的一篇文章,其模型在RWF-2000数据集获得了92%的准确率,作者提出了轻量级的空间注意模块和时间注意模块,还有一个Frame-grouping方法,可以与传统的二维卷积神经网络(2D CNNs)相结合,该方法是本文的亮点,作者通过消融实验证明了Frame-grouping方法获得的提升最大,仅使用Frame-grouping都可以在RWF-2000数据集获得88%的准确率,而且Frame-grouping还降低了计算量,更有利于部署在硬件端。下图为整个模型的流程图:
空间注意力MSM模块利用连续帧的差异,捕捉来自运动边界的特征地图的显著区域。时间注意力T-SE可以地突出与目标事件相关的时间段。Frame-grouping将RGB的通道进行平均化,并将三个连续的通道平均化的帧作为CNN的输入。
空间注意力:MSM
MSM可以有效的突出移动的对象,MSM计算出来的运动特征,通过扩张运动边界 便得到了注意力图,先求出两帧的欧几里得距离xt和xt+1,按下图公式求得移动物体的边界: