2020-MULTIMODAL VIOLENCE DETECTION IN VIDEOS视频中的多模态暴力检测

本文探讨了视频中的暴力检测,通过分解暴力为多个子概念,分别利用视觉和音频特征进行分析。采用预处理技术提取光流和光加速度等特征,结合C3D、Inception v4和LSTM等模型进行视觉检测。音频检测则通过提取多种特征并用神经网络进行分类。最后,通过视听融合网络将两者结合,以提高暴力检测的准确性。实验表明,Inception v4在视觉部分表现出色,而浅层神经网络在音频部分效果最佳。
摘要由CSDN通过智能技术生成

在本文中,作者旨在通过将暴力的主观概念分解为更客观的概念来解决暴力检测任务
更细节的客观子概念。k=7,更具体地说,是血液、冷武器、爆炸、战斗、火、大部分武器、枪声的概念。对于每个概念,作者训练特定的神经网络:首先分析其视觉特征,然后分析其听觉特征,然后将这两个功能结合起来获得对子概念更好的理解。对K个子概念重复此步骤,最后使用融合网络将所有概念组合起来。作者的目标是开发一个视觉和音频特征表示的融合模型。
与本文提出方法最相关的工作是【17】提出的,该方法通过收集语音特征,利用dCNN技术获取视觉特征,这两个特征在后期融合阶段被进一步连接。最后利用标准分类器对视频中暴力场景进行分类识别。不同的是,我们的工作提出了一个独特的方法论融合步骤的后期阶段,以实现更多的视觉和听觉特征之间的相关性。
在这里插入图片描述

基于视频的暴力检测:

预处理:对于每个视频,提取了所有帧,为了表示运动,作者计算帧之间的光通量以及光学加速度(在三个相邻帧之间的两个连续光流之差),三种视觉输入:原始帧、光流、和光加速度。使用了C3D和LSTM架构与CNN方法结合,还使用了经过Imagenet预先训练的Inception v4.

基于音频的暴力检测:

特征提取:采用两步法。 首先,我们通过利用四种标准音

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值