【论文精读】2017_ISNN_Abnormal Event Detection in Videos Using Spatiotemporal Autoencoder

Abnormal Event Detection in Videos Using Spatiotemporal Autoencoder

论文地址链接

Abstract

   作者提出了用于异常检测的一个时空结构。模型包括两个主要部分,一个用于空间特征的表达,另一个用于学习空间特征的时间演变。在Avenue、Subway和UCSD基准上的实验结果证实,作者的方法在相当高的速度下可以与最先进的方法媲美,最高可达每秒140帧。

Conclusion

   作者将异常检测定义为一个时空序列异常点检测问题,并将空间特征提取器和时间序列器ConvLSTM相结合来解决该问题。ConvLSTM层不仅保留了FC-LSTM的优点,而且由于其固有的卷积结构,也适用于时空数据。通过将时空卷积特征提取融合到编解码结构中,构建了一个端到端可训练的视频异常检测模型。
ps:

introduction

   本文提出了一种新的框架,通过一组通用特征来表示视频数据,这些特征通过深度学习方法自动从一段长视频片段中推断出来。具体来说,由一堆卷积自动编码器组成的深度神经网络以无监督的方式处理视频帧,捕捉数据中的空间结构,将其组合在一起,构成视频表示。然后,将这种表示输入到卷积时态自动编码器堆栈中,学习规则的时态模式。

Related work

Jefferson最近提出应用卷积lstm来学习视频中的规则时间模式,他的发现显示了深度神经网络可以学习的内容的巨大前景。此外,Jefferson应用的卷积LSTM层是内存密集型的——训练需要在非常小的批量上执行,这导致训练和测试时间缓慢。
二维卷积和池化操作仅在空间上执行,即使提出的网络以多个帧作为输入,因为二维卷积,经过第一卷积层后,时间信息完全折叠。

Method

预处理

这个阶段的任务是将原始数据转换为模型可接受的对齐输入。每一帧提取原始视频,调整大小为227×227。为了保证输入图像都在同一尺度上,将像素值在0到1之间进行缩放,并将每一帧的像素值与其全局均值图像相减进行归一化。平均像素值通过平均训练数据集中每帧每个位置的像素值来计算。然后对图像进行灰度化降维处理。然后对处理后的图像进行归一化,使其均值为零。
模型的输入是视频长方体,每个长方体由10个连续帧组成,具有不同的跳跃步长(使用Hasan等人的数据增强方法)。

模型结构

   作者提出的体系结构包括两个部分:用于学习每个视频帧的空间结构的空间自动编码器和用于学习编码空间结构的时间模式的时间编码器-解码器。如下图所示,空间编码器和解码器分别有两个卷积层和反卷积层,而时间编码器是一个三层卷积长短时记忆(LSTM)模型。
在这里插入图片描述
时域编码器-解码器模型有3个卷积LSTM(ConvLSTM)层
在这里插入图片描述

异常分数计算

在这里插入图片描述
在这里插入图片描述
hasan等人一致

实验

Adam优化器,batch为64,50epochs或者验证集重构误差在连续十帧不减小,激活函数使用tanh
定量实验结果:
在这里插入图片描述
定性分析:
如下图所示作者的方法相比Hasan的ConvAE检测到的异常事件更多,误报更少,能够在正常活动时产生较高的规律性评分,在异常活动时产生较低的规律性评分
在这里插入图片描述

在这里插入图片描述

作者最终帧级别 AUC:
  ped1(0.899)
  ped2(0.874)
  Avenue(0.803)

Discussion

  1. 作者提供的结果表示比17年ICME利用LSTM那篇效果好,两个方法非常相似
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值