【论文精读】2016_Anomaly detection in video using predictive convolutional long short term memory networks

几帧从前_

已于 2022-05-06 19:58:08 修改

阅读量359

点赞数

分类专栏： OCC设定视频异常检测文章标签：深度学习神经网络计算机视觉

于 2022-05-06 19:57:34 首次发布

本文链接：https://blog.csdn.net/qq_41954153/article/details/124596722

版权

OCC设定视频异常检测专栏收录该内容

10 篇文章 1 订阅

订阅专栏

Anomaly detection in video using predictive convolutional long short term memory networks

论文地址链接

Abstract

作者通过学习生成模型来解决这个问题，该模型可以使用有限的监督来识别视频中的异常。作者提出了端到端可训练能够从少量的输入帧预测视频序列的演化的合成卷积长短期记忆网络。

Conclusion

作者应用网络的预测能力来确定异常事件和定位视频序列中的兴趣点。定量分析表明，作者的模型与最先进的异常检测方法在各种数据集上具有竞争力。

Introduction

本文有两个主要贡献。第一个贡献是基于合成卷积长短期记忆模型网络架构生成模型的提出。灵感来自于ConvLstm，作者的卷积LSTM网络组成了一个复合模型，能够对输入的视频序列进行编码，重构，并预测其近期的未来。作者的模型使用了ConvLSTM单元，允许网络更好地学习时空表示。第二个贡献是应用ConvLSTM网络，在模型的输出处使用规律性评估算法来检测异常视频片段。

Related works

Hasan等人采用了卷积神经网络(CNN)学习给定视频序列的时间规律性。从重构误差计算规则性分数，并用于检测异常。虽然CNN是有效的，但它的发展并没有考虑到时间特征，并不是天生适合视频。

Method

模型

网络架构如下图所示：
在这里插入图片描述

输入不重叠的帧块,通过将输入重构为一堆不重叠的patch，模型会丢失一些细节，但会了解数据更重要的特征。
编码器：每个Conv-lstm层由跨越指定时间步数的多个Conv-lstm单元组成。每个Conv-lstm层的最后一个时间步的输出被用作编码。提出的模型没有利用maxpooling层。相反，它将每个ConvLSTM层的输出直接提供给下一层。
解码器：有两个解码器，一个重建过去的输入视频序列，另一个预测未来。使用编码器中相应层提供的编码对每个解码器进行初始化，如上图所示。过去的解码器输出仅由从其初始化中提取的信息确定。将每一层的输出通过1x1卷积滤波器进行级联和求和，得到输入的重构。作者考虑了未来解码器的两种选择:无条件解码器和有条件解码器。无条件解码器与过去的解码器具有相同的架构。条件解码器将每个时间步的输出求和作为下一个时间步的第一层的输入，从而将其“条件反射”到前一帧，这可能会让模型更好地了解视频的常态。
本文结构主要是利用了ConvLSTM的Encoding-Forecasting 结构

异常分数

与2016年的ConvAE采用相同的计算方法。此处对归一化分数有解释：正则性评分对同一视频中重构误差进行归一化处理到0到1之间，因为不同的视频可能对异常有不同的概念。

实验

数据集：UCSD pedestrian、Avenue、Subway
先使用了一个初始ConvLSTM自编码器模型来评估参数的选择，输入图片resize到224 X 224，然后分到64个不重叠的patch，使用未来解码器测试，测试表格如下：
在这里插入图片描述
在基线模型的变化中测试的参数包括输入和输出时间步长、卷积核大小和最终输出非线性函数，如表所示。输入长度为10的模型每帧输出的MSE较低，但需要训练1.5倍的时间，这使得它在很大程度上效率低下。模型预测的未来时间步数越多，每个预测就变得越糟糕。为了捕捉较小的运动，考虑使用3x3的卷积核，但效果不是很好。在最终输出时测试了常用的修正线性单元(ReLU)非线性函数，但最终发现基线模型所使用的参数是最有效的。
将参数应用于所提出的复合模型，并评估相对于基线模型的准确性，如下表所示。复合模型每帧的MSE较低，而非条件模型的性能稍好一些。
在这里插入图片描述
没有采用AUC作为实验结果故不再叙述

Disscussion

1.本文的主要模型结构来自两篇文章分别是Unsupervised learning of video representations using LSTMs和Convolutional LSTM network: A machine learning approach for precipitation nowcasting以及对于16年ConvAE运动信息提取不足的改进。本文基本就是将之前的两个方法组合了一下。好像并未中稿。

几帧从前_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【论文精读】2016_Anomaly detection in video using predictive convolutional long short term memory networks

Anomaly detection in video using predictive convolutional long short term memory networks论文地址链接Abstract作者通过学习生成模型来解决这个问题，该模型可以使用有限的监督来识别视频中的异常。作者提出了端到端可训练能够从少量的输入帧预测视频序列的演化的合成卷积长短期记忆网络。Conclusion作者应用网络的预测能力来确定异常事件和定位视频序列中的兴趣点。定量分析表明，作者的模型与最先进的异常检测方法在各
复制链接

扫一扫