【视频异常行为检测】Video anomaly detection with spatio-temporal dissociation

自编码器 重建+预测

摘要:

探索了一种新的卷积自动编码器架构,该架构可以分离时空表示,以分别捕获空间和时间信息,因为异常事件通常与外观和/或运动行为的正常情况不同。

空间自动编码器通过学习重建第一个单独帧(FIF)的输入来对外观特征空间上的常态进行建模,而时间自动编码器将前四个连续帧作为输入,将RGB差分(RGB difference)作为输出,以有效的方式模拟光流的运动。这些在外观或运动行为上不规则的异常事件会导致较大的重建误差。

为了提高对快速移动异常值的检测性能,我们开发了一个基于方差的关注模块(deep Kmeans cluster strategy),并将其插入到运动自动编码器中,以突出显示大的运动区域。

此外,我们提出了一种深度Kmeans聚类(deep Kmeans cluster strategy)策略,以迫使空间和运动编码器提取紧凑的表示。

FIF:first individual frame (FIF) 第一张视频帧

LIF:last video frames (LIF) 最后一张视频帧

引入

研究困难:

  • 真实的视频数据非常复杂
  • 用于异常检测的标记训练数据是有限的

研究现状:

通过建模正常行为来解决有限标记数据的问题,这些人都使用自动编码器或U-Net来重建正常事件或预测未来帧,以捕捉视频序列背后的正常情况。

  • 重建输入单帧以捕获外观特征,一般使用手工特征或者直接使用视频帧作为输入,并通过提取高级特征表示来学习以较小的重建误差重建正常事件[1]。应用2D卷积自动编码器来降低维度并学习时间规则[21-23]。使用相邻帧之前的时间相关性来训练自动编码器网络[24]。最小化重建误差来学习正常行为正态事件的时间规律性,这样异常行为将导致更大的重建误差。

  • 有人认为,由于深度神经网络的高容量,异常事件的重建误差不一定大于正常事件。提出了一种基于预测的异常检测方法,然后将预测与未来帧进行比较以识别异常事件。

但是作者发现这些方法主要集中于学习运动信息和时间规则性,而忽略了外观异常提示(that the appearance abnormality cue),综合来说,异常事件在外观或运动上可能是不规则的,因此需要结合空间和时间特征来进行异常检测,提出一种新的自编码器。

外观异常提示:有些物体在外观上明显不同于正常物体,但不涉及运动异常值

此外,还有人利用了双流架构进行异常检测,其运动流主要通过生成或重建相应的光流来学习运动表示。然而,光流对于学习规律性可能不是最佳的,因为它们不是专门为异常检测设计的。并且计算光流成本高,因此作者提出利用差分RGB算法,后面有讲。

卷积自动编码器架构

异常事件在外观或运动上可能是不规则的,因此需要结合空间和时间特征来进行异常检测

结合了基于重建和基于预测的架构,使用双流架构来分离空间信息和运动信息,并将重建和预测分别用作空间流和运动流的辅助任务。重建输入单帧以捕获外观特征,并预测未来帧和第一个输入帧之间的RGB差异以学习正常事件的运动模式。

RGB差分

将连续视频帧作为输入,将其RGB差值作为输出,以学习运动信息。通过利用产生的RGB差模拟光流的运动,运动自动编码器可以学习时间规则性,其捕获的特征表示包含基本的运动信息。

利用RGB差分策略来代替光流来模拟运动信息,这效率更高。在训练阶段,我们堆叠除LIF之外的所有其他帧,并使用2D CNN作为时间自动编码器的主干来处理连续的视频帧。通过强制运动编码器学习紧凑的运动表示并产生RGB差异,运动自动编码器可以有效地学习时间规则性和运动一致性。

优势:可以比光流更快地获得RGB差分线索以捕获运动信息,并且可以容易地将运动自动编码器的生成与空间自动编码器的重建像素化融合,以进一步帮助异常检测。

基于方差的关注模块

监控视频的大部分是静止的,异常值通常与快速移动有很高的相关性,例如行人在地铁入口处快速行驶,车辆在人行道上快速行驶。利用基于方差的注意力模块来自动突出大运动的图像区域,并在运动编码器的每个块之后附加该注意力模块

💯由于运动编码器由三个2D ResNet块组成,因此特征图的每个位置都包含通道上的局部运动信息。对于那些移动较大的区域,这些嵌入的方差也会更高。
v ( h , w ) = 1 D ∑ d = 1 D ∥ f n ( h , w , d ) − 1 D ∑ d = 1 D f n ( h , w , d ) ∥ 2 att ⁡ ( h , w ) = ∥ exp ⁡ ( v ( h , w ) ) ∑ h = 1 , w = 1 H , W exp ⁡ ( v ( h , w ) ) ∥ 2 \begin{aligned} & v(h, w)=\frac{1}{D} \sum_{d=1}^D\left\|f_n(h, w, d)-\frac{1}{D} \sum_{d=1}^D f_n(h, w, d)\right\|_2 \\ & \operatorname{att}(h, w)=\left\|\frac{\exp (v(h, w))}{\sum_{h=1, w=1}^{H, W} \exp (v(h, w))}\right\|_2 \end{aligned} v(h,w)=D1d=1D fn(h,w,d)D1d=1Dfn

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值