论文笔记:Residual spatiotemporal autoencoder for unsupervised video anomaly detection

摘要

使用一种正态建模方法来解决数据集中异常行为比较少的问题,其中异常被检测为偏离正常模式,基于这个问题提出了一种残差时空自编码器,用来检测视频中的异常检测,利用重建损失检测不规则帧,其中正常帧以较低的重建成本被很好地重建,反之则被识别为异常帧,通过与现有方法的比较,证明了剩余块(residual blocks)的有效性是增量的,比深入额外的层,以训练一个具有良好泛化跨数据集的时空自动编码器。

一、 介绍

为了获得更准确的异常视觉模式检测,我们开发了一个残差时空自编码器
(residual spatiotemporal autoencoder:R-STAE)
,将正常活动的视频片段作为训练数据,提出的r - state对正常模式的时空表示进行无监督学习,并以低误差重构它们。总之,建议的R-STAE使用剩余块来缓解梯度消失问题。r - state以端到端方式实现。

二、剩余时空自动编码器

作为一种数据驱动的方法,深度模型有助于学习更一般化的模式,这些模式涵盖了各种正常活动中普遍存在的类内变化,最近的一种方法中,他们使用了双流残差网络来进行动作识别。与此相反,我们建议使用单个流剩余时空自动编码器(R-STAE)架构来检测监控视频中的异常事件,如下图所示:
在这里插入图片描述

三、基于剩余时空自编码器(r - state)的正态性建模

**目的:**提取能够区分输入视频片段中正常和异常事件的时空表征
**方法:**使用残馀时空自动编码器(R-STAE),它包括3D卷积、反卷积和Conv.LSTM层,以学习模式的正常活动从监控视频。深度学习方法的最新进展使自动编码器能够有效地编码任何给定的数据分布,同时最小化信息丢失。
网络架构剩余时空自编码器由8层组成,其中编码器和解码器各4层。编码器部分由三个3D卷积层组成,分别为256、128、64个单元。卷积层用于从给定的输入视频片段中提取空间信息。
**激活函数:**tanh,因为RELU函数没有上界
Batch normalization:作为一种提高r - state训练效率的正规化技术
Conv.LSTM layer:编码器和解码器部分,所有的输入都是三维的张量,Conv.LSTM layer的公式如下:
在这里插入图片描述
解码器部分由反卷积层组成,也被称为用于重建的卷积转置层。在允许随机初始化内核值时,超参数(如内核大小、内核数量和步数)是预先根据经验确定的.(ResNet),以克服在深度网络中普遍存在的梯度消失问题。在我们的架构中使用的剩余块如图1所示。残差网络中的基本残差块除了现有的卷积层外,还包含一个身份跳过连接。这有助于传播来自前一层的信息,也有助于反向传播过程中的梯度流动,从而控制梯度消失问题。输入为x的残差块的方程由:
在这里插入图片描述

  • V i V_i Vi:输入的片段
  • V i − V^-_i Vi:重构视频段
    视频片段给重建输入时学习正常活动模型的一种状态,试验结果如图2所示。重构帧和实际帧之间的平均平方差使用均方误差(MSE)计算。这是因为正常帧的MSE值会更小,异常帧的MSE值会更高(因为模型被训练为正常状态)。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

计算测试帧总数的正态性得分,其范围为[0-1]。实证选择的阈值为0.7,这意味着如果该测试例的正态性得分大于0.7,则为正常,反之为异常。在训练阶段并没有使用预先训练过的网络来进行特征提取。r - state网络的输入是由一系列堆叠的灰度图像组成的视频段,而不是RGB通道的图像。这有助于减轻测试时在帧中重构冗余信息的负担,输入视频段的维数为112 * 112 * 1 * 8,其中1表示图像中的信道数,8表示形成视频段的连续帧数。数据增强对减少训练期间的重建损失没有多大帮助。
r - state的总体架构如表1所示。R-STAE网络的输入是由8个连续帧组成的视频片段,分辨率为112 * 112,剩余块放置在编码器和解码器块之间,最大池化层并没有被用来避免在输入帧中丢失空间信息。在R-STAE网络中添加==剩余区块(residual blocks)==的效果如图3所示。通过对LV数据集的研究可以看出,在网络中加入残差块相比于没有残差块的网络,重构损失更低,而且收敛的更快。

四、结果和数据

(一)、数据集

  • Avenue dataset:16个训练和21个测试片段,每个片段的持续时间不超过2分钟,训练集和测试集分别是15,328和15,324帧。每帧的分辨率为360 * 640,视频剪辑的帧率为每秒25帧(fps)
  • Live Videos (LV) dataset:包含了30个视频,帧率从7.5到30帧每秒,最小分辨率为176 * 144,最大分辨率为1280 * 720,这里面的每个视频的分辨率不是统一的。
  • UCSD Ped2 dataset:数据集由16个训练视频和12个测试视频组成,分辨率为 240 *360像素。上述数据集中的异常事件包括投掷物体、行人人行道异常、暴力抢劫等。

(二)、预处理和训练

  1. 输入视频大小调整: 视频中的每一帧都被调整为分辨率为112 * 112。将一组8个连续帧分组,形成持续时间不变的视频片段。
  2. 优化器: Adam optimizer
  3. 激活函数:tanh 激活函数
  4. 批处理大小:16
  5. 过拟合问题:添加dropout层避免过拟合

(三)、结果

对Avenue、LV和UCSD-Ped2数据集进行现有最先进方法与我们提出的方法(如表2、表3和表4所示)的比较。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

由于MemAE方法在Avenue和UCSD Ped2数据集上都一致证明了其重要性,稀疏正则化技术和内存模块的添加似乎稳步有利于异常检测任务。图4显示了对UCSD ped2数据集的检测性能的可视化分析。像车辆这样的不寻常物体比像行人这样的正常物体移动得快得多.因此,由于重构误差高,帧中的异常运动物体会变得模糊。总的来说,正常事件片段对应的正态性得分高于异常事件片段对应的正态性得分,这证明了所提出的R-STAE方法的重要性。

在这里插入图片描述

(四)、参数对结果的影响

1.残差块对检测性能的影响
2.不同维度的Conv.LSTM层
3.tanh激活函数对ReLU激活函数的影响
为了保证r - state体系结构的重构能力,我们根据经验选择了Conv.LSTM层的隐藏单元,在性能和总体网络参数之间进行了权衡。分配给Conv.LSTM层的隐藏单元数的影响如表6所示.Conv.LSTM层中的隐藏单元数用来形成视频段的压缩表示。最小数量的隐藏单元可能会导致更多的信息丢失,而Conv.LSTM层中大量的隐藏单元可能会在潜在表示中引入冗余。

残差块对检测性能的影响
在这里插入图片描述
Conv.LSTM层的维度影响
在这里插入图片描述

激活函数的影响
在这里插入图片描述
在我们的实验中,卷积具有64个隐藏单元的LSTM层可以更好地重构三个数据集。消融研究的另一观察结果如图6所示。可以看出,与ReLU相比,使用tanh激活函数有助于实现更低的训练损失UCSDPed2数据集。

五、结论

基于时空自编码器的方法在检测监控视频中的异常活动方面有很大的应用前景。我们建议使用端到端残差时空自动编码器(R-STAE)来检测视频中的异常事件。在各种基准数据集上的实验表明,该方法能够很好地利用残差块进行帧级异常检测。在建议的r - state体系结构中,三个剩余块以及Conv.LSTM层始终提供更好的检测性能。与一些最先进的方法相比,结果证明了所提出的r - state架构的有效性。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值