2019-走向视频中的主观暴力检测TOWARD SUBJECTIVE VIOLENCE DETECTION IN VIDEOS

作者对每个网络(C3D、CNN-LSTM)都经过了针对每个单独概念(血液、冷武器、爆炸、战斗、射击等)的二进制分类的训练。因为VSD数据集只有训练集的样本提供了概念的注释(血液、冷武器等),所以作者从训练集中分离了五套可用的训练影片,两套用于训练期间的验证,三套用于测试。也就是说作者用C3D、CNN-LSTM两个模型分别单独训练了更细致的暴力分类概念(血液、爆炸、射击等),之后作者用C3D Fusion、CNN-LSTM Fusion两个模型进行训练,其融合数据来自各个模型之前单独训练出来的特征。作者设计了一个网络策略,该策略可以从二元分类网络获得的输出权重中独立学习最终策略,这个策略就是放在两个单独训练的模型中,来提取融合特征。这里可能有些难懂,具体可以看后面的Feature-fusion network。
在本文中,我们探索了一种不同的暴力检测方法,该方法依赖于两个深度神经网络(DNN)框架来学习在不同情况下(基于主观和基于概念)的视频剪辑的时空信息。 我们针对每个特定概念利用深层特征表示,并通过将浅层神经网络训练为二元分类问题来汇总整体暴力,从而将它们进行汇总。

贡献:

首先,作者考虑三种不同的视频中暴力检测场景:(i)基于概念的暴力检测,以识别视频中所需的暴力概念; (ii)一种设置,其中不考虑第一种情况,仅使用暴力作为独特概念; (iii)关于第一种情况,我们考虑将概念整体融合在一起,以确定更高级的暴力概念。
其次,作者利用两个深度神经网络(DNN)

随着“平安城市”建设的不断推进,公共安全逐渐成为人们关注的热点间 题,税频监控技术也随之得到了越来越广泛的应用,传统的视频监控系统主要提供采集存储功能,这远远无法满足人们对其智能化的需求。要实现智能化的视频监控系统,以下几个关键问题亟需解决:(1)如何快速发现监控视频中的异常行为,及时给出警报,并最大限度地减少误报和漏报现象;(2)如何在多种不利因素下(如羊样本,低分辨率)对可疑目标进行准确的识别分析:(3)在海量数据的情况下,如何确保视频分析系统的实时性及准确性。 近年来,深度学习在机器视觉、语音识别和自然语言处理等多个领域都取得了优异的成绩,这也为智能视频分析技术的发展带来了新的契机。因此,本文基于深度学习的方法对上述相关问题展开研究,主要研究工作与创新如下: 1,针对监控视频中的异常行为尤其是暴力打斗行为难以准确快速发现的问题,提出了一种基于三维卷积深度网络的暴力检测方法。该方法利用大量带标签的视频数握进行有监督的学习,通过将传统二维卷积核扩展为三维来提取视颈中的运动信息,然后综合利用视频的空间信息及运动信息来构建深度神经网络模型,从而实现对监控视须中暴力打斗的检测。由于深层模型端到端学习的特性,所以不需要设计复杂的手工特征来描述运动信息,从而降低了任务的复杂度。实验结果表明,本文提出的方法在单一场景以及人群密集环境下都可以对暴力打斗行为进行准确识别。 2.针对人脸图像在单训练样本下难以被准确识别的问题,提出了一种基于核主成分分析网络(Kernel Principle Component Analysis Setworks,KPCANet)模型的二阶段投票人脸识别方法。该方法在不使用额外样本数据的情况下,利用非监督深层模型KPCANet对分块后的人脸图像进行训练并利用KPCA学习得到的波器进行特征提取,从而保证了提取的特征对光照及遮挡的鲁棒性,同时也消除了人脸局部形变对识别率的影响。本文通过投票的方法融合每一个分块的预测值来得到最后的识别结果,对于单次投票结果不唯一的情况,本文采取了二阶段的投票方法,通过扩大每一块的预测候选集,并对不同的区域赋子不同的权值来得出最后的结果,从而进一步提升了识别的准确率。实验结果表明,该方法在四个公开人脸数据集上都取得了优异的表现,算法准确率优于使用了额外数据集的通用方法,尤其是在非限制人脸数据集LFW-a上,本文提出的方法比sVDL和LGR方法准确率提升了约15%.
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值