CVPR2021 MIST: Multiple Instance Self-Training Framework for Video Anomaly Detection
知识点学习:
多实例学习https://zhuanlan.zhihu.com/p/299819082
练数据集中的每个数据是一个包(Bag),每个包都是一个示例(instance)的集合,每个包都有一个训练标记,而包中的示例是没有标记的;如果包中至少存在一个正标记的示例,则包被赋予正标记;而对于一个有负标记的包,其中所有的示例均为负标记。
训练的时候是没有给示例标记的,只是给了包的标记,但是示例的标记是确实存在的,存在正负示例来判断正负类别
原因之一是为了解决正样本数目过少,导致普通分类会导致类间不平衡
WS-VAD可以分为两类,编码器无关(The encoder-agnostic)方法和基于编码器(encoder-based methods)的方法。
-
💯 编码器无关方法[23,32,27]利用从表示为E的普通特征编码器中提取的视频的任务不可知特征
-
基于编码器的方法同时训练特征编码器和分类器:
- 最先进的基于编码器的方法是Zhong等人[35],其将WS-VAD表述为标签噪声学习问题,并从标签噪声清洁器网络过滤的噪声标签中学习
-
有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?
视频异常行为识别 半监督领域 video-level 注释
-
背景(研究现状、痛点)
-
弱监督视频异常检测(WS-VAD)是基于鉴别表示将异常与正常事件区分开来。
-
大多数现有作品的视频表现不足。因为它需要模型理解正常和异常事件之间的内在差异,特别是罕见且变化很大的异常事件。
-
以前的工作将VAD视为一项无监督的学习任务,仅使用正常训练样本对通常的模式进行编码,然后将不同的编码模式检测为异常。
-
同时,将视频级别标签指定给每个剪辑会产生标签噪声。
-
此外,现有的方法没有考虑有效地训练特定于任务的特征编码器,该编码器为监控摄像机下的事件提供区分表示。
-
-
论文试图解决什么问题?如何解决
解决视频异常行为的弱监督学习。我们的工作也是一种基于编码器的方法,以在线细粒度方式(如何实现)工作(work in an online fine-grained manner),但我们使用伪标签生产器生成伪标签,来优化我们的特征编码器ESGA,而不是直接使用视频级标签作为伪标签。此外,我们设计了一个两阶段自训练方案,以有效地优化我们的特征编码器和伪标签生成器,而不是迭代优化
-
这是否是一个新的问题?
否
-
有什么贡献?
①提出了基于MIL的伪标签生成器,基于MIL的方法可以比那些简单地为每个剪辑分配视频级别标签的方法更准确地生成伪标签(怎么实现的?),采用稀疏连续采样(怎么稀疏采样?)策略,可以迫使网络更加关注最异常(异常连接怎么就可以更加关注更异常的部分,后面有说)部分周围的上下文。
② 提出了Self-guided attention boosted feature encoder自导式注意力增强特征编码器,我们在我们提出的特征编码器中利用提出的自我引导(如何实现自我引导?)注意模块来强调不带任何外部注释的异常区域,而是正常视频的剪辑级注释和异常视频的剪辑级别伪标签。
-
这篇文章要验证一个什么科学假设?
-
论文中提到的解决方案之关键是什么?解决的细节。有什么样的结论?
主要是两个网络,伪标签生成器 和 自导式注意力增强特征编码器
分为两个阶段,
第一个阶段:
Vn,Va首先打包,形成Bn,Ba ,接着通过E,一种训练好的vanilla feature encoder(通常是I3D、C3D,注意这不是EGSA) ,生成特征向量 { f i a } i = 1 N and { f i n } i = 1 N \left\{\mathbf{f}_i^a\right\}_{i=1}^N \text { and }\left\{\mathbf{f}_i^n\right\}_{i=1}^N { fia}i=1N and { fin}i=1N , 接着首先进行稀疏连续采样(如下),接着采用MIL排名损失网络训练得到分数,得到视频clips的异常分数 { s i a } i = 1 N , { s i n } i = 1 N ) \left.\left\{s_i^a\right\}_{i=1}^N,\left\{s_i^n\right\}_{i=1}^N\right) { sia}i=1N,{ sin}i=1N) ,这样就是训练伪标签生成器G。
稀疏连续采样 3.2
MIL+粗粒度,固定视频分割的长度容易将异常行为隐藏,但是 通过细粒度的方式,网络可能会过度强调异常的最强烈部分,而忽略其周围的环境。在假设异常持续时间最短的情况下,MIL网络被迫更加关注最异常部分周围的环境
这个是生成器的其中一个环节,左边是两个包,一个是都是正常视频的包,一个是含有异常视频的包,包内有子包(这个有什么作用的吗?) 。将f特征 sample L个子集,每一个子集包含 T个连续的clips 。
中间是基于MIL排名损失网络,右边为输出,是对每个包以及子包的异常评分,其中子包的分数是子包内所有clips的平均分。
生成器:一个3层MLP,其中单元的数量分别为512、32和1,通过每层之间的概率为0.6的丢弃进行正则化
通过使用移动平均滤波器执行时间平滑以缓解核大小为k的异常分数的抖动
s ~ i a = 1 2 k ∑ j = i − k i +