弱监督视频异常检测|Self-Training Multi-Sequence Learning with Transformer for Weakly Supervised Video Anomaly

 Self-Training Multi-Sequence Learning with Transformer for Weakly Supervised Video Anomaly Detection

Li, S., Fang Liu and Licheng Jiao. “Self-Training Multi-Sequence Learning with Transformer for Weakly Supervised Video Anomaly Detection.” AAAI (2022). 

 Paper:Self-Training Multi-Sequence Learning with Transformer for Weakly Supervised Video Anomaly Detection| Proceedings of the AAAI Conference on Artificial Intelligence

本文的亮点:

  1. 提出了一种多序列学习(Multi-Sequence Learning MSL)方法,它使用由多个实例组成的序列作为优化单元。基于此,我们提出了一种Multi-Sequence Learning ranking loss,它选择异常分数总和最高的序列.

大多数弱监督VAD都基于多实例学习(MIL)。基于 MIL 的方法将视频视为一个包,其中包含多个实例。每个实例都是一个片段。由异常视频产生的包称为正包,由正常视频产生的包称为负包。由于视频级标签指示视频是否包含异常,因此正包 包含至少一个异常片段,而负包不包含任何异常片段。

因此,基于MIL的方法的重点是正确地选择正包中的异常实例。

使用多实例学习(MIL)的弱监督视频异常检测(VAD)通常基于异常片段的异常分数高于正常片段的异常得分这一事实。多序列同样也是基于这个原理。

但存在 一个问题:在训练初期,由于模型的精度有限,很容易选择错误的异常片段。

本文提出的想法就是 为了缓解这个问题

  1. 基于多序列学习及其排序损失,我们设计了一个基于 Transformer 的多序列学习网络,并提出在推理阶段使用视频级异常分类概率来抑制片段级异常得分的波动
  2. 通过逐渐减少所选序列的长度,我们提出了一种两阶段自训练策略,以逐步细化异常分数,因为VAD需要预测细粒度的异常分数

关于 Self-training 的步骤:

1)带标记数据的训练模型; 2)利用训练后的模型预测未标记数据,生成伪标记; 3)带标记数据和伪标记数据的训练模型; 4)重复2)和3) 

 Approach

符号和问题陈述

在弱监督的VAD中,训练视频只使用视频级别(Video-level)的标签。包含异常 为 1(正样本), 不包含为 0 (负样本)。

给定一个视频 V 划分为T 段 Y 表示 视频级别标签

 基于MIL 的方法 将一个视频 看为一个 包 ,片段 看为实例。 

包含异常的为正包,相反为负包

 表示预测异常分数的函数 ,指的就是整个模型

 通常,基于MIL的VAD假设异常片段的异常得分高于正常片段。

 Sultani, W.; Chen, C.; and Shah, M. 2018. Real-World Anomaly Detection in Surveillance Videos. In CVPR, 6479–6488.

将VAD表示为异常得分回归问题,并提出MIL ranking objective functionMIL ranking loss

 为了在正实例和负实例之间保持较大的差距,给出了a hinge-based ranking loss:

 Multi-Sequence Learning

在优化开始时,fθ需要具有一定的预测异常的能力。否则,会选择正常实例作为异常实例。如果fθ错误地预测了正包中的实例,例如,将正常实例预测为异常实例,则随着训练的进行,此错误将得到加强。此外,异常部分通常是多个连续的片段,但基于MIL的方法不考虑这一先验。

 提出的 Multi-Sequence Learning 就是为了缓解这个问题。从图2 中可以看出差别

 K 表示 选取的连续片段的数量,是一个超参数

 对于的一个序列的异常分数的计算:

 其中,Si表示从第 i 个片段开始的 K 个连续片段序列的异常得分平均值。

基于上述序列选择方法,我们可以简单地使用MSL ranking objective function

 其中,分别表示异常视频和正常视频中从第 i 个片段开始的K个连续片段的异常得分平均值。

 同样地,hinge-based MSL ranking loss

 可以看出,MIL是我们MSL的一个特例。当K=1时,MIL和MSL相等。当K=T时,我们的MSL会将异常视频中的每个片段视为异常(这就是对整个视频 判断是否有异常)。

 Transformer-based MSL Network

 Convolutional Transformer Encoder

Transformer不擅长学习相邻帧或片段的local representations。受此启发,如图1(c)所示,我们将原始 Transformer 中的linear projection替换为DW Con-v1D(深度可分离1D卷积)。这样,我们的CTE可以继承Transformer和卷积神经网络的优点。

Transformer-based MSL Network

任何动作识别方法都可以用作主干,例如C3D(Tran et al.2015)、I3D(Carreira and Zisserman 2017)和VideoSwin(Liu et al.2021c)。通过主干,特征 F∈T×D 从包含T片段的视频中提取,其中D是每个片段的特征尺寸。我们的MSLNet将使用 F 作为输入来预测异常。

我们的MSLNet包括一个视频分类器(video classifier 和一个片段回归器(snippet regressor)

视频分类器用于预测视频是否包含异常。具体来说,视频分类器包含两层CTE和一个线性头,用于预测视频是否包含异常的概率:

其中是线性头的参数,p是视频包含异常的可能性,class token 用于通过CTE中的聚集特征预测概率 。视频是否包含异常是一个二分类问题,σ选择了sigmoid函数。

 片段回归器用于预测每个片段的异常分数。具体来说,片段回归器包含两层CTE和一个线性头,用于预测每个片段的异常得分:

是第i个片段的异常分数,是第i片段的特征,预测异常分数被视为一个回归问题 。

 我们将视频分类器和片段回归器的优化视为一个多任务学习问题。优化MSLNet参数的总损失是我们 hinge-based MSL ranking loss the classification loss 的总和:

 为了减少片段回归器预测的异常分数的波动,我们在推理阶段提出了一种分数修正方法。

 具体而言,分数校正方法通过使用视频是否包含异常的概率来校正异常分数:

该方法的直观性在于,当视频分类器预测视频含有较高概率的异常时,保留异常分数,当视频分类器预测视频含有较低概率的异常时,减弱异常评分。

Self-Training MSL 

如图1(b)所示,我们提出了一种自我训练机制,以实现从粗到细的训练。MSLNet的训练过程包括两个训练阶段。

在引入我们的自我训练机制之前,我们首先获得了训练视频的伪标签 ˆy 。通过将已知的视频级标签 y 列为弱监督的VAD作为视频片段的异常分数,我们可以立即获得初始的实例级伪标签。也就是说,对于一个异常视频,每个片段的伪标签为1,对于普通视频,每个snippet的伪标签为0

在训练的初始阶段,函数fθ预测异常的能力较差。因此,如果直接通过fθ的预测选择序列,则有可能选择错误的序列。

基于这个动机,我们提出了一个过渡阶段(第一阶段):用伪标签选择序列的MSL。

具体来说,通过 使用每个片段vi的伪标签ˆyi 将预测的异常分数重新放置在等式4中,我们选择伪标签平均值最大的序列。基于此序列,我们可以计算,然后通过 hinge-based MSL ranking loss 优化MSLNet:

 其中,  分别是从异常视频和正常视频中的第i个片段开始的伪标签平均值最大的序列。经过E1 epochs训练后,fθ具有初步预测异常分数的能力。

在第二阶段,MSLNet 使用预测来选择序列进行优化。这个阶段使用 式5和式6 来计算排名损失。在 E2 epochs 训练后,对训练视频的新片段级伪标记 Y 进行了推断。通过将长度 K 减半并重复上述两个阶段,预测的异常值逐渐得到细化。

过渡阶段的作用是在MSL和不同的自我训练回合之间建立联系。通过引入自我训练机制,我们实现了从粗到细的异常分数预测。为了更好地理解,在算法1中展示了的自训练MSL。

 Experiments

Datasets:ShanghaiTech,UCF-Crime, and XD-Violence datasets 

Shanghaitech Vision and Intelligent Perception(SVIP) LAB

CRCV | Center for Research in Computer Vision at the University of Central Florida

XD-Violnce

Evaluation Metrics:

Area Under the Curve (AUC) of the frame-level ROC (Receiver Operating Characteristic)  for ShanghaiTech and UCF-Crime. 

Average Precision (AP) as our metric for XD-Violence.

请注意,AUC和AP的值越大,性能越好

在几个数据集上的效果: 

 Qualitative Analysis

 Ablation Analysis

Performance change as K decreases.

Improvement brought by CTE.

 推理阶段分数修正的影响。

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: 自我批评序列训练是一种用于图像字幕生成的技术。它通过在训练期间对生成的字幕进行自我批评,以改进模型的性能。该方法使用了一种称为“自我注意力”的技术,它允许模型在生成字幕时关注先前生成的单词,从而提高生成的质量。自我批评序列训练已被证明是一种有效的技术,可以在各种图像字幕生成任务中提高模型的性能。 ### 回答2: Self-critical sequence training(SCST)是一种图像标注模型的训练方法,它通过对模型输出的错误进行自我评估来提高图像标注的精度。SCST是一种监督式学习方法,它通过与基础模型进行有针对性的反馈,来提高模型的输出结果。 在SCST中,模型首先生成一个单词序列,然后通过自我评估方法计算序列的损失函数。模型会将自己生成的序列与参考答案进行比较,并根据两者之间的差异来调整自己的参数。如果模型生成的序列与参考答案相似度高,则可以认为模型输出的结果是正确的,模型会将该序列的损失函数作为最终的目标值进行优化。 SCST的另一个优点是它可以生成更加准确的图像标注。在传统的图像标注方法中,模型在标注一张图片时会依靠之前标注的其他图片的信息,但是这种方法的精度往往会受到前一个标注结果的影响。而SCST在每个输入图像上独立进行标注,每一步只考虑当前序列的损失函数,从而减少标注过程中的误差。 总的来说,SCST是一种有效的图像标注训练方法,它能够通过自我评估来优化模型,同时生成更加准确的图像标注。 ### 回答3: “自我批评顺序训练”是一种用于图像描述的深度学习技术。该技术的主要目的是提高用计算机生成图像描述的质量和准确性。 在传统的图像描述方法中,计算机通过“编码-解码”系统生成描述。首先将图像输入编码器,然后将编码结果传入解码器,最后给出相应的描述。但是这种方法很难准确地给出正确的图像描述,特别是对于长句描述来说。 为了解决这个问题,研究人员提出了自我批评顺序训练技术,该技术的基本思想是通过与人工生成描述的对比来训练模型。具体来说,这个技术包括三个关键步骤: 1. 生成描述。计算机将图像输入到编码器,然后用解码器生成一个最初的描述并提交给人工审核。 2. 人工批评。人工将计算机生成的描述与自己生成的描述进行比较,然后给出分数。 3. 重新训练。计算机接收到人工评分后,采取相应的操作来调整自己的模型。然后再进行描述生成,直到达到最终的分数为止。 通过这种方法训练的计算机模型,可以显著提高图像描述的准确度和质量。在使用这种技术进行研究时,研究人员还发现,自我批评顺序训练能减少过拟合现象的发生。因为它强制计算机与人类对比,从而避免了学习到过多的训练数据和模型参数。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值