暴恐检测
文章平均质量分 86
半分热度
这个作者很懒,什么都没留下…
展开
-
[CVPR 2021] 利用时序差分进行动作识别的最新Backbone--TDN
TDN: Temporal Difference Networks for Efficient Action RecognitionarxivGithub存在的问题这是一篇动作识别方向的文章,之前的时空建模方法大致分为两种,一种是双流网络,一个RGB流一个光流,利用光流捕获运动信息,计算量很大;另一种方法是使用3D卷积,从RGB信息中隐式学习运动特征,但是3D卷积在时间维度缺乏特定的考虑(3D卷积学出来的时序weight的分布基本一致,更多的还是对时序上的信息做一种平滑聚合)且需要更多的算力。也有使原创 2021-09-22 16:54:45 · 1404 阅读 · 0 评论 -
2021- (让2D CNN具有短期编码的能力)用于实时暴力识别的高效时空建模方法
IEEE Access的一篇文章,其模型在RWF-2000数据集获得了92%的准确率,作者提出了轻量级的空间注意模块和时间注意模块,还有一个Frame-grouping方法,可以与传统的二维卷积神经网络(2D CNNs)相结合,该方法是本文的亮点,作者通过消融实验证明了Frame-grouping方法获得的提升最大,仅使用Frame-grouping都可以在RWF-2000数据集获得88%的准确率,而且Frame-grouping还降低了计算量,更有利于部署在硬件端。下图为整个模型的流程图:空间注意力M原创 2021-07-29 11:14:06 · 902 阅读 · 3 评论 -
2021-Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
paper: https://arxiv.org/abs/2103.14030code: https://github.com/microsoft/Swin-Transformer将Transformer从NLP领域迁移到CV领域面临两个挑战:1.与文本相比图像中的视觉实体尺度变化剧烈,NLP的scale是标准固定的,而CV的scale变换范围非常大。2.图像分辨率高,带来了多尺度建模与计算量巨大的问题,CV中使用Transformer的计算复杂度是图像尺度的平方。因为存在这两个问题,所以iGPT原创 2021-07-02 09:08:22 · 382 阅读 · 0 评论 -
2019-An Improved Two-stream 3D Convolutional Neural Network for Human Action Recognition
一种改进的双流三维卷积神经网络用于人体动作识别该文的双流指的是RGB和光流,双流分别提取出RGB特征和光流特征,光流是稠密光流,它是基于前后两帧所有像素点的移动估算算法。之后将RGB特征和光流特征匹配,放入3D网络中训练。本研究的三个主要改进是:1)将Resnet-101网络独立地集成到目标网络的两个流中;2) 由两个流的相应卷积层分别获得的两种特征映射(即光流运动和RGB通道信息)相互叠加;3) 利用三维卷积神经网络(CNN)将时间信息与空间信息相结合,从视频中提取更多的潜在信息。双流CNN的原创 2021-06-27 21:18:35 · 482 阅读 · 0 评论 -
2021-基于人工智能视频监控序列的校园暴力检测Campus Violence Detection
Campus Violence Detection Based on Artificial Intelligent Interpretation of Surveillance Video Sequences本文作者分别对视频和音频进行了检测,分别得出一个概率(暴力或非暴力),作者定义的分类标准:当视频和音频同时判断为暴力时,则这个场景就是暴力场景;当视频=暴力,音频=非暴力,则定义为体育竞技或玩游戏,为非暴力场景;当视频=非暴力,音频=暴力,定义为批评,为非暴力场景;当视频=音频=非暴力时,则该场景定义原创 2021-06-02 15:16:54 · 2687 阅读 · 6 评论 -
2021-基于卷积和LSTM神经网络的视频分类时间融合方法在暴力检测中的应用
A Temporal Fusion Approach for Video Classification with Convolutional and LSTM Neural Networks Applied to Violence Detection通过读该文章,想起之前复现的一个代码,与本文不同的是,代码采用帧率从视频片段中截取图片,视频的帧率都是25,也就是1s提取25张图片,这样会有很多重复帧,本文采用的是1s提取2帧,代码采用的是文章中提到的早期融合(Early Fusion),把40帧串联起来送原创 2021-05-25 16:44:52 · 1711 阅读 · 2 评论 -
2019-Cover the Violence: A Novel Deep-Learning-Based Approach Towards Violence-Detection in Movies
覆盖暴力:一种基于深度学习的电影暴力检测新方法在本文中,作者提出了一个包含三个步骤的电影暴力检测方案。首先将整部电影分割成多个镜头,然后根据镜头的显著程度从每个镜头中选取一个代表性的帧。接下来,这些选定的帧从一个轻量级的深度学习模型中传递,该模型使用转移学习方法进行微调,以对电影中的暴力镜头和非暴力镜头进行分类。最后,所有的非暴力场景被合并在一个序列中,以生成一个无暴力的电影。作者利用预先训练好的图像网络权值对一个轻量级的深度CNN模型(MobileNet)进行了微调,以便于模型的收敛和数据集中的暴力识别原创 2021-05-20 15:12:02 · 375 阅读 · 0 评论 -
2021-ADNet:监控视频中的时间异常检测ADNet: Temporal Anomaly Detection in Surveillance Videos
异常检测一般的方法是学习环境中的正常行为,将一切不正常的行为定义为不正常,这种方法可能会产生一些误报,但是有可能识别不包括在训练数据集中的异常情况。另一种方法是将数据集中的异常情况喂给模型学习,并尝试识别它们,但是失去了识别没有训练过的异常情况的能力。本文的贡献:1.提出了一个异常检测网络:ADNet,利用卷积来定位视频中的异常。2.为了提高ADNet的异常检测能力,提出了AD损失函数。3.扩展了UCF-Crime数据集,增加了两个异常类。本文的代码和数据集扩展在:https://github.原创 2021-05-07 16:08:25 · 921 阅读 · 0 评论 -
2021-Efficient Two-Stream Network for Violence Detection Using Separable Convolutional LSTM
使用可分离卷积LSTM进行暴力检测的高效两流网络本文亮点为作者对视频进行了预处理,1.取帧差作为输入;2.进行背景抑制,突出运动对象。在模型方面,作者选择了一种轻量级的CNN进行特征提取(MobileNet)。模型分为双流,一个流的输入为帧差,另一个流的输入为背景抑制后的结果,最后两个流都放入MobileNet进行特征提取,之后将输出放入Seperable Convolutional LSTM中,提取时空特征,之和串联两个流的输出。作者提出了一种有效的双流深度学习架构,可分离卷积LSTM(SepConv原创 2021-04-29 09:48:15 · 737 阅读 · 1 评论 -
2019-一个基于CNN的多模式工具来保证视频的正确性A MULTIMODAL CNN- BASED TOOL TO CENSURE INAPPROPRIATE VIDEO SCENES
作者的目的是:设计一个审查工具来检测视频中存在的暴力、色情画面。然后对这些画面进行模糊处理,声音进行删除。作者使用的是基于卷积神经网络(CNNs)的多模态(音频特征和图像特征)架构,用于检测。作者的模型在检测适当画面和不适当画面分别得到了98.95%和98.94%的F1分数。作者使用了两个深度CNN,一个用于提取图形序列特征,另一个用于提取音频特征。然后将这些特征结合起来,为整个视频(或视频片段)创建一个单一的特征向量,然后作为分类器的输入。基于CNN的分类器由两个模块组成。第一个模块作为主干充当特征提取原创 2021-04-28 21:34:31 · 193 阅读 · 0 评论 -
2020-MULTIMODAL VIOLENCE DETECTION IN VIDEOS视频中的多模态暴力检测
在本文中,作者旨在通过将暴力的主观概念分解为更客观的概念来解决暴力检测任务。更细节的客观子概念。k=7,更具体地说,是血液、冷武器、爆炸、战斗、火、大部分武器、枪声的概念。对于每个概念,作者训练特定的神经网络:首先分析其视觉特征,然后分析其听觉特征,然后将这两个功能结合起来获得对子概念更好的理解。对K个子概念重复此步骤,最后使用融合网络将所有概念组合起来。作者的目标是开发一个视觉和音频特征表示的融合模型。与本文提出方法最相关的工作是【17】提出的,该方法通过收集语音特征,利用dCNN技术获取视觉特征,这原创 2021-04-23 15:46:38 · 1123 阅读 · 1 评论 -
2019-图卷积标签噪声清除器:训练即插即用动作分类器以进行异常检测Graph Convolutional Label Noise Cleaner: Train a Plug-and-play Act
弱标签定义:如果数据集中的数据出现样本只标注部分类别没有被完全标注的情况,也算一种弱标注。有监督学习:训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。无监督学习(unsupervised learning):训练样本的标记信息未知,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础,此类学习任务中研究最多、应用最广的是"聚类" (clustering),其他无原创 2021-04-19 20:59:32 · 951 阅读 · 3 评论 -
2019-走向视频中的主观暴力检测TOWARD SUBJECTIVE VIOLENCE DETECTION IN VIDEOS
作者对每个网络(C3D、CNN-LSTM)都经过了针对每个单独概念(血液、冷武器、爆炸、战斗、射击等)的二进制分类的训练。因为VSD数据集只有训练集的样本提供了概念的注释(血液、冷武器等),所以作者从训练集中分离了五套可用的训练影片,两套用于训练期间的验证,三套用于测试。也就是说作者用C3D、CNN-LSTM两个模型分别单独训练了更细致的暴力分类概念(血液、爆炸、射击等),之后作者用C3D Fusion、CNN-LSTM Fusion两个模型进行训练,其融合数据来自各个模型之前单独训练出来的特征。作者设计了原创 2021-04-12 20:01:48 · 894 阅读 · 1 评论 -
2019-使用3D卷积神经网络进行有效的暴力检测Efficient Violence Detection Using 3D Convolutional Neural Networks
介绍作者提出了一种基于3D卷积神经网络的深度学习模型,无需使用手工制作的功能或RNN架构专门用于编码时间信息。 改进的内部设计采用紧凑而有效的瓶颈单元来学习运动模式,并利用DenseNet架构促进了特征重用和通道交互,这被证明具有捕获时空特征的能力,并且需要相对较少的参数。本篇文献的贡献如下:1.提出了一种端到端3D CNN模型,而不使用手工制作的功能或RNN架构专门用于编码时间信息。2.证明了在所提出的模型中采用的瓶颈单元(bottleneck units)和desnenet体系结构有助于提高表示原创 2021-04-11 21:14:02 · 1149 阅读 · 0 评论 -
2018-Bidirectional Convolutional LSTM for the Detection of Violence in Videos双向卷积LSTM在视频暴力检测中的应
介绍了一种基于双向卷积LSTM(BiConvLSTM)结构的时空编码器。在时空编码器中添加双向时间编码和这些编码的元素最大池在暴力检测领域是新颖的。这种添加的动机是希望通过在视频的两个时间方向上利用长距离信息来获得更好的视频表示。过程我们通过VGG13网络将每个视频帧编码为特征图的集合。然后,我们将这些特征映射传递给BiConvLSTM,以便沿着视频的时间方向对它们进行进一步编码,执行时间上的向前传递和反向传递。接下来,我们对每个编码执行元素最大化,以创建整个视频的表示。最后,我们将此表示传递给分类器原创 2021-04-08 14:51:10 · 1318 阅读 · 2 评论 -
Violence detection-Hockey Fight-CNN+LSTM暴力检测CNN+LSTM实例
提取属于视频的一组帧,将它们发送到一个名为VGG16的预训练网络,获得其最后一层的输出,并从这些输出训练另一个具有称为LSTM的特殊神经元的网络结构。这些神经元具有记忆能力,能够分析视频的时间信息,如果在任何时候检测到暴力,就会被归类为暴力视频。对数据的处理以及查看导入所需要的包:%matplotlib inlineimport cv2import osimport numpy as npimport kerasimport matplotlib.pyplot as plt# import转载 2021-04-05 16:30:39 · 4335 阅读 · 13 评论 -
2019:RWF-2000: An Open Large Scale Video Database for Violence Detection一个开放的大规模暴力检测视频数据库
本文提出了一个RWF-2000数据集,此外提出了一种新的方法,Flow Gated网络,综合了三维CNNs和光流的优点。代码地址作者的方法:作者提出的模型具有自学习池机制,能很好地融合时间特征和外观特征:图4显示了我们提出的模型的结构,包括四个部分:RGB通道、光流通道、合并块和完全连接层。RGB通道和光流通道是由级联的三维cnn构成的,它们具有一致的结构,可以实现输出的融合。合并块也由基本的3D CNNs组成,这些CNNs经过自学习的时间池处理信息。最后,完全连接的层生成输出。此外,我们采用Mo原创 2021-04-05 14:37:00 · 1815 阅读 · 1 评论 -
2020-既看,又听:在弱监督下学习多模态暴力检测
Not only Look, but also Listen: Learning Multimodal Violence Detection under Weak Supervision本文的贡献:1.发布了一个名为XD-Violence的多模式暴力数据集,其中包含4754个未修剪的视频,涵盖了六种常见的暴力类型。 据我们所知,XD暴力是迄今为止规模最大的暴力数据集,总计217小时。 与以前的数据集不同,XD-Violence的视频是从多种场景中捕获的,例如 电影和YouTube。2.引入了HL-Ne原创 2021-03-30 15:30:55 · 3022 阅读 · 8 评论 -
2017-利用卷积长短时记忆学习检测暴力视频Learning to Detect Violent Videos using Convolutional Long Short-Term Memory
arxiv:https://arxiv.org/pdf/1709.06531.pdf本文贡献:1.开发了一个端到端可训练的深度神经网络模型来进行暴力视频分类。2.发现一个能够编码局部时空变化的递归神经网络用于检测视频中暴力的存在,能以较少的参数产生更好的表示。3.证明了基于帧差训练的深度神经网络比基于原始帧训练的模型具有更好的性能。4.使用三个广泛使用的暴力视频分类基准,实验验证了该方法的有效性。红色的为卷积层、灰色的为归一化层、蓝色的为池化层、绿色的为ConvLSTM用于分类,全连接层为棕色原创 2021-03-30 08:52:17 · 578 阅读 · 0 评论 -
2020-基于视觉的战斗检测监视摄像机(Vision-based Fight Detection from Surveillance Cameras)
arxiv:https://arxiv.org/pdf/2002.04355.pdf本文概括:本文探索了基于 LSTM 的解决方法。 此外,还利用了注意层。 此外,还收集了一个新的数据集,其中包括来自监控摄像机视频的战斗场景,可在 YouTube 上获得。暴力活动包含广泛的活动,例如破坏、爆炸和战斗。 在这项研究中,我们重点讨论了战斗活动。 战斗事件被定义为两个或两个以上的人,他们的战斗程度必须受到干扰。在本研究中,为了增强基于 CNN+LSTM 的战斗检测任务方法, 利用战斗场景对改进的 Xcep原创 2021-03-29 21:16:23 · 608 阅读 · 1 评论