本文的创新:
1.本文提到了一个新的架构,使用两个VAE组合进行异常事件检测,两个VAE均为生成模型,第一个VAE称为SF-VAE,是一个全连接的编码器,输入为低分辨率的图片,目的是将显而易见的正常个体过滤掉,给SC-VAE提供筛选后的样本,SC-VAE使用筛选后的样本,并进行图像放大。
2.具体做法是,1.先用全卷积网络进行N+1帧前景分离,再将分离后的前景图片使用类似目标检测的方法,使得每一个像素值被多个框框覆盖;2.将处理后的前景图片和基于N+1帧计算光流特征得到的N帧光流特征作为联合输入进入SF-VAE进行筛选,SF-VAE结合了变分推理和神经网络[33],在隐层中通过高斯拟合模型的方法,进行图片重建并筛选;3.输出图片进入SC-VAE进行处理,SC-VAE结合了U-net网络和VAE网络,集成了底层和高层信息;4.为了检错,本文使用了运动和外观特征分别进入网络,求错误的交集;
3.损失函数的设定为:最大似然估计和KL散度的结合。
学到的东西:
1.基于运动的缺点是:不能检测错正常动作却是异常事件的错误(在人群应该不存在这个问题);
2.基于时空的问题在于:特征描述符的缺失和合适的分类方法的描述
3.对于简单高斯混合不能拟合的分布可以使用多个不同的高斯函数的叠加以及通过多个潜变量的叠加;
4.本文检测异常检测依然是通过重建误差来进行的;
5.基于帧级是整帧分为正常还是异常帧,容易出错的问题在于,可能分类有问题,如因为卡车停在人行道,所以行人走不了人行道,分类的依据不是卡车停到了行人道而是行人走在了非行人道;基于像素的方法是:当像素异常值与ground truth有40%的不一致时才分类到异常值(没搞懂);
6.UMN dataset 和PETS dataset 可以用于异常人群检测
《Generative Neural Networks for Anomaly Detection in Crowded Scenes》解读
最新推荐文章于 2021-10-09 10:13:18 发布