作者对每个网络(C3D、CNN-LSTM)都经过了针对每个单独概念(血液、冷武器、爆炸、战斗、射击等)的二进制分类的训练。因为VSD数据集只有训练集的样本提供了概念的注释(血液、冷武器等),所以作者从训练集中分离了五套可用的训练影片,两套用于训练期间的验证,三套用于测试。也就是说作者用C3D、CNN-LSTM两个模型分别单独训练了更细致的暴力分类概念(血液、爆炸、射击等),之后作者用C3D Fusion、CNN-LSTM Fusion两个模型进行训练,其融合数据来自各个模型之前单独训练出来的特征。作者设计了一个网络策略,该策略可以从二元分类网络获得的输出权重中独立学习最终策略,这个策略就是放在两个单独训练的模型中,来提取融合特征。这里可能有些难懂,具体可以看后面的Feature-fusion network。
在本文中,我们探索了一种不同的暴力检测方法,该方法依赖于两个深度神经网络(DNN)框架来学习在不同情况下(基于主观和基于概念)的视频剪辑的时空信息。 我们针对每个特定概念利用深层特征表示,并通过将浅层神经网络训练为二元分类问题来汇总整体暴力,从而将它们进行汇总。
贡献:
首先,作者考虑三种不同的视频中暴力检测场景:(i)基于概念的暴力检测,以识别视频中所需的暴力概念; (ii)一种设置,其中不考虑第一种情况,仅使用暴力作为独特概念; (iii)关于第一种情况,我们考虑将概念整体融合在一起,以确定更高级的暴力概念。
其次,作者利用两个深度神经网络(DNN)