文献阅读笔记2: Learning Deep Representation of Appearance and Motion for Anomalous Event Detection

最新推荐文章于 2022-05-02 13:57:15 发布

Kraus111

最新推荐文章于 2022-05-02 13:57:15 发布

阅读量1.2k

点赞数 1

分类专栏：文献笔记文章标签：计算机视觉异常行为识别人工智能视频处理分析

本文链接：https://blog.csdn.net/Kraus111/article/details/84060675

版权

文献笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章来源：BMVC 2015

作者信息：Dan Xu ，Postdoctoral Researcher ，Visual Geometry Group (VGG)
Department of Engineering Science，University of Oxford
主要内容：第一次将深度特征用于异常事件检测。提出AMDN架构，分为Appearance,Motion，Joint 3个通道,并对通道信息进行了两次融合。用SDAE（降噪自编码机）得到视频特征的稀疏表示，利用One-class SVM来检测异常事件。

网络结构：
在这里插入图片描述
Appearance representation:
1.利用一个多尺度的滑动窗口来提取patches
2.将这些patches缩放到相同大小（ $w_a,h_a,c_a$ ）,其中 $c_a$ 为通道数，并规范到[0,1]
3.输入到堆叠4层的encoder layer，第一层的神经元个数为( $v_a,w_a,h_a,c_a$ ）,这个 $v_a$ 是用来构建一个完备滤波器组的扩增量。

Motion representation:
1.固定大小为（ $w_m,h_m,c_m$ ）的滑动窗口来对光流特征图像提取patches,其中 $c_m=2$ 对应于光流的x,y两个坐标方向。
2.在每个通道中规范到[0,1]
3.堆叠4层的encoder layer,第一层的神经元个数为( $v_m,w_m,h_m,c_m$ ）

Joint representation:
直接将灰度图像和光流图像提取到的patches进行逐像素融合，得到Joint representation的patches.

SDAE
在这里插入图片描述
最简单情况（3层）：
encoder: $f (W, b)$
decoder: $f (W^{'}, b^{'})$
hidden layer: $h$
$x^{'}$ 为 $x$ 加入噪声后的信号
$h_i=f_e(x'|W,b)=\delta(Wx'+b)$ （编码）
$\hat{x}=f_d(h_i|W',b')=s(W'h_i+b')$ （解码）
target : $\min\limits_{W,W',b,b'}\sum_{i=1}^N||x_i-\hat{x_i}||_2^2+\lambda(||W||_F^2+||W'||_F^2)$ (最小化重构误差)
多层情况（2L+1）层
target : $\min\limits_{W,W',b,b'}\sum_{i=1}^{N^k}||x_i-\hat{x_i}||_2^2+\lambda _F\sum_{i=1}^L(||W_i^k||_F^2+||W_i^{'k}||_F^2)$
这可以通过梯度下降法来优化。
最终，取隐藏层的特征 $s_i^k=\delta_L(\delta_{L-1}(\ldots\delta_1(W_1^kx_i^k+b_1^k))$ 来表示视频信息。

One-class SVM
training sample：
$S=\{s_i^k\}_{i=1}^{N^k}$
target：
$\min\limits_{w,\rho}\frac12||w||^2+\frac1{VN^k}\sum_{i=1}^{N^k}\xi_i-\rho$
$st\qquad w^T\Phi(s_i^k)\geq\rho-\xi_i$
$\xi_i$ ：松弛变量
$\rho$ :超球面半径
$\Phi$ ：映射函数，将数据映射到其他空间
One-class SVM的思想是训练出一个超球面，使得正常数据在球面内，而异常数据在球面外。松弛变量是为了避免对少数噪声数据的过拟合。对于样本t的k通道（有Appearance,Motion,Joint3个通道）数据来说 $s_t^k$ ，它的异常分数为：
$A^k（s_t^k）=\rho-w^T\Phi(s_t^k)$

Late Fusion
由于3个通道得到了3个异常分数，late fusion将对这3个分数进行融合：
$A(s_t^k)=\sum\limits_{k\in\{A,M,J\}}\alpha^kA^k(s_t^k)$
而权重向量将通过学习得到：
$\min\limits_{w_s^k,\alpha_s^k}\sum\limits_k\alpha^ktr(W_s^kS^k(W_s^kS^k)^T)+\lambda_s||\alpha||_2^2$
$\qquad \alpha^k>0，\sum\limits_k\alpha^k=1$
取 $W_s^k$ 为 $S^kS^{k\, T}$ 的前d大特征值对应的特征向量，则 $\alpha$ 可以由如下方法得到：
$\min\limits_{\alpha^k>0，\sum\limits_k\alpha^k=1}\frac12||\alpha-c||_2^2$
$c=[c^A,c^M,c^J]$
$c^k=-\frac1{2\lambda_s}tr(W_s^kS^k(W_s^kS^k)^T)$
最终通过 $A(s_t^k)$ 是否大于阈值 $\eta$ 来判断是否为异常行为

实验结果
在这里插入图片描述

表1用几种最先进的方法从曲线下面积(AUC)和等差率(EER)两方面对ROC曲线进行了定量比较。从框架级的评价来看，这个方法的性能比当时的许多方法要好。此外，考虑到像素级的评估，即异常定位的准确性，使得这种方法在EER和AUC方面都优于所有的竞争方法。
表1还显示了拟议的双融合策略的优点。与早期融合和后期融合相比，AMDN保证了更好的性能。
具体来说，对于早期融合，只使用用Joint这一个支持向量机。对于后期融合，采用两条独立的外观和运动管道以及所提出的融合方案，但放弃了Joint通道。有趣的是，在这个应用程序中，后期融合策略优于早期融合策略