介绍
作者提出了一种基于3D卷积神经网络的深度学习模型,无需使用手工制作的功能或RNN架构专门用于编码时间信息。 改进的内部设计采用紧凑而有效的瓶颈单元来学习运动模式,并利用DenseNet架构促进了特征重用和通道交互,这被证明具有捕获时空特征的能力,并且需要相对较少的参数。
本篇文献的贡献如下:
1.提出了一种端到端3D CNN模型,而不使用手工制作的功能或RNN架构专门用于编码时间信息。
2.证明了在所提出的模型中采用的瓶颈单元(bottleneck units)和desnenet体系结构有助于提高表示抽象时空特征的能力,并且相对而言需要较少的参数。
3.在三个基准数据集上通过实验验证了我们的模型,并进行了补充实验以评估其有效性和效率。
相关工作
作者提到较早的工作是通过火焰、血液、枪声、爆炸省等音频内容来识别的。但是监控视频通常是不包括音频信息的。所以基于视频信息的方法成为了主流。
深度学习方法:首先是双流网络,之后增加了用于捕获暴力动作的加速流。还有LSTM网络对长期信息进行建模。时间分段网络(TSN),并提出了FightNet模型,该模型将原始帧,光流和加速度场作为网络输入,并使用SoftMax进行最终融合。但这些方法与手工特征相结合伴随这是不能进行端到端的训练。
目前提出可以进行端到端的模型:3D ConvNets模型,还有先用2D ConvNets提取空间特征然后用ConvLSTM提取时空信息。最后改进出了BiConvLSTM体系结构作为时空编码器。这里提到的几种模型可以翻看我之前发表的文章。
模型
作者认为识别精度和计算效率是两个重要的指标