【论文精读】2017_MM_Spatio-Temporal AutoEncoder for Video Anomaly Detection

本文提出了一种时空自动编码器(STAutoEncoder)模型,利用3D卷积网络从空间和时间维度提取视频特征,同时引入权重降低的预测损失以增强运动特征学习。实验证明该模型在视频异常检测任务上优于现有方法。此外,作者还创建了一个新的数据集,并讨论了未来的工作方向,包括多模态输入融合和异常分数的示例级评估。
摘要由CSDN通过智能技术生成

Spatio-Temporal AutoEncoder for Video Anomaly Detection

论文地址链接

Abstract

  在本文中,作者提出了一个新的模型,称为时空AutoEncoder (ST AutoEncoder或STAE),它利用深度神经网络自动学习视频表示,并通过执行三维卷积从空间和时间维度提取特征。
除了现有的典型自动编码器所使用的重建损失外,作者引入了一种权重降低的预测损失来生成未来帧,从而增强视频中的运动特征学习。
作者还提出了一个新的数据集。

Conclusion

  作者提出了一个名为时空自动编码器的模型,用于视频异常检测,以多任务(重建和未来预测)方式利用三维卷积网络从空间和时间维度提取视频特征。实验证明了作者方法优于现有SOTA方法。未来工作包括研究其他网络结构,融合多模态输入(RGB和光流),在示例级别评估异常分数而不是像素级别以及将作者网络应用到更复杂场景。

Introduction

  基于自动编码器网络的无监督深度学习方法也被提出,以解决视频异常检测问题,然而,这些方法仅仅依赖于全连接的自动编码器或2d-卷积自动编码器,而没有利用时间维度的特征,因此无法捕捉异常事件的时间线索,而这对于识别视频事件异常值至关重要。
  受3D卷积网络在视频分析中的卓越性能的启发,作者提出了一个时空(ST)AutoEncoder用于视频异常检测,在编码器中应用三维卷积,在解码器中应用三维反卷积,增强了从时间维度中提取运动模式的能力。除了在典型的自动编码器中使用的重构损失外,还引入了一个权重降低的预测损失来预测未来帧,它指导模型捕获运动物体的轨迹,并强制编码器更好提取时序特征

Related Work

  Hasan等人提出了一种全卷积自编码器来学习时空规律性。虽然提出的模型以多帧为输入,但由于卷积运算只在空间上进行,时间信息完全折叠。在本文中,作者开发了一个新的模型,利用三维卷积运算从空间和时间维度提取特征,克服了现有的基于深度学习方法的缺点。

Method

输入

  使用长度为T的滑动窗口获取T帧输入,作者在第4维(通常称为时间维)中叠加T帧,将输入构建为一个超长方体,并对其进行三维卷积。通道数等于原始帧,并取决于数据类型,灰度图为1,RGB为3。所有输入数据normalized到[0,1]。

数据增强

  作者通过各种变换生成更多的输入超长方体(随机裁剪,亮度变化和高斯模糊)应用于从视频序列采样的clips,不采用Hasan等人的跨步数据增强,因为跨步可能会改变运动速度,然而,在许多异常检测场景中,速度是一个重要的时间特征,因此在作者的方法中,作者使用恒定的步幅对帧进行采样,从而使物体的移动速度保持不变。

网络架构

  T= 16,输入帧resize到 128 × 128 128\times 128 128×128编码器包含四层3D卷积层来提取时空特征使用 3 × 3 × 3 3\times3\times3 3×3×3的卷积核和步长 1 × 1 × 1 1\times1\times1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值