CLIP-TSA: CLIP-Assisted Temporal Self-Attention for Weakly-Supervised Video Anomaly Detection论文阅读笔记

摘要

本文提出了一种针对视频异常检测(VAD)的解决方法,使用ViT编码的视觉特征从CLIP中提取判别性的表示,同时使用自己提出的时间自注意力(TSA)来建模长期和短期的时间依赖性,并提名感兴趣的片段。实验结果表明,CLIP-TSA方法在两个常用基准数据集上均超过了现有的最先进方法,效果明显,组成部分的消融分析也证实了其有效性。

引言

视频理解是一个快速发展的领域,需要分析空间和时间信息,比如动作识别、动作检测、视频字幕生成和视频检索等。视频异常检测是视频理解领域中的一个重要问题,是定位给定视频中异常事件的任务。目前主要有三种方法:全监督,无监督和弱监督。近年来,视频异常检测受到越来越多的关注。本文介绍了视频异常检测(VAD)的三种方法:监督式 VAD、无监督式 VAD 和弱监督式 VAD,其中监督式 VAD 要求进行精细的标注,难以实现大规模数据集的创建;无监督式 VAD 精度较低;弱监督式 VAD 利用视频级别标签,同时采用多实例学习框架,解决了标注困难、异常不明显的问题,性能较为优秀。

本文针对现有视觉异常检测 (VAD) 方法存在的问题,提出了一个基于Contrastive Language-Image Pre-training (CLIP) 和 top-κ 函数的视觉异常检测方法,用于定位视频中的异常事件。CLIP 用于提取视觉特征,top-κ 函数可以处理任意数量的异常片段定位问题,Temporal Self-Attention (TSA)机制用于生成针对异常程度的加权注意力特征。实验在三个数据集上进行,并进行了消融实验。

我们的贡献可以总结如下:
•我们提出了一种适用于弱监督 VAD 问题的时序自注意力(TSA)机制,可以获得视频片段的异常可能性分数。
•我们利用 CLIP,该模型使用 ViT 作为视觉特征的主干,引入了一种新的 CLIP 特征使用方法和分析包含异常行为的视频的新型上下文表示方法。
•我们通过实验证明,我们提出的方法非常有用,表现优于目前在任何类型的监督设置下对 UCF-Crime 和 ShanghaiTech Campus 数据集进行基准测试的所有最新算法。对于 XD 数据集,它在不使用听觉特征的情况下击败了所有最新算法。

相关工作

  • 无监督VAD

无监督异常检测是一种不需要标记数据的检测方法。该方法通过对正常训练样本进行编码和检测其与异常样本的差异来识别异常。最近的方法主要利用深度神经网络,重构误差被用来识别异常。先前的方法主要依赖手工制作的特征,而最新的方法主要利用深度神经网络。尽管无监督异常检测的性能一直比弱监督异常检测的性能滞后,但是近年来该方法的性能在不断提高。

  • 弱监督异常检测

弱监督的视频异常检测方法主要依靠视频级别的标签。在这种设置下,正常标记的视频包含所有正常事件,而异常标记的视频则包含正常和异常事件,但没有任何关于异常事件开始和结束的时间信息。这种弱监督的视频异常检测问题被普遍认为是基于多实例学习的问题,其中异常标记的视频被视为正样本(positive bag),正常标记的视频被视为负样本(negative bag)。自从Sultani等人提出了在UCF-Crime上检测异常的弱监督框架后,这种弱监督设置下的研究已经变得越来越受欢迎。此后,更多的弱标记视频异常检测数据集被引入。这些方法中,特征提取器可以通过训练或使用预训练模型来获得。Zhong等人和Zhu & Newsam等人同时训练了特征编码器和分类器,而Sultani等人、Tian等人和Zhang等人则使用了预训练模型(如C3D、I3D、2Stream和SlowFast)作为特征提取器,并仅训练了分类器。

  • VLPM
    VLPM是一种视觉语言预训练模型,旨在通过对大规模视频/图像-文本数据集进行预训练来学习不同模态(即视频和文本)之间的语义对应关系。该模型可以用于视频描述、文本到视频检索和视频问答等任务。VLPM可以分为单流和双流两类,前者使用单个Transformer模型对图像/视频和文本表示进行统一建模,后者则使用独立的编码器对图像/视频和文本进行编码。本文中选择了双流结构和对比学习方法来训练CLIP模型,因为其简单、灵活和低计算成本。
  • Attention
    在Attention模型的历史发展中,Bahdanau等人在2015年提出了一种软关注机制,该机制能够关注源语言中的所有单词,尝试在不使用传统编码器-解码器模型(如RNN、LSTM)的情况下解决机器翻译问题。Xu等人在此后不久引入了一种硬性随机注意机制,该机制能够计算源单词相对于输出单词的相对重要性。尽管硬关注机制只能集中注意力在局部,但其计算量通常比软注意机制少。许多变种的关注机制已经被引入,并且随着时间的推移不断发展,其中包括Luong等人提出的类似于硬关注的本地关注机制。近年来,Vaswani等人提出了Transformer,这是一种仅使用全连接层和注意力机制的NMT架构,利用了自注意机制。最近,Vo等人继承了软注意模型和硬注意模型的优点,并提出了自适应注意模型。尽管最初应用于NMT中,但Transformer的使用已经广泛扩展到包括计算机视觉领域在内的许多领域。

方法

1) 问题确立

本文介绍了一个弱监督的视频异常检测(VAD)算法,其中训练集中的视频标记仅限于视频级别。对于每个训练视频,在中间帧处应用视觉语言模型(如CLIP)提取特征表示,然后将视频分成一组帧表征。给定一个视频,在将其划分为小段后,提取每个段的特征表示,并使用它们进行异常检测。

在这里插入图片描述

图1 :我们提出了一种新的CLIP-TSA模型,用于在训练时进行异常检测。该模型将视频X分为多个δ帧的片段{si} T i ,通过图像-语言特征fi表示每个片段。然后将这些特征通过调整大小为相同长度T,以便进行批次训练。我们提出的TSA模型应用于调整后的特征,生成异常关注特征Fˆ。使用得分分类器C,将异常关注特征Fˆ转化为异常可能性分数U,并采用特征大小进行差异最大化训练技术υγ,α来优化模型。

CLIP-TSA是一个视频异常检测模型,它采用视觉-语言模型来表示视频特征。然而,在训练时,由于不同样本的视频嵌入特征长度不同,需要通过标准化视频特征长度的方法来处理。在测试时,输入特征已经被标准化为统一的时间维度长度。CLIP-TSA的管道包括三个主要组件:特征编码、时间自注意力和差异最大化。

2 )特征编码
CLIP是一种图像-文本匹配模型,在计算机视觉领域取得了显著的成就。它由两个独立的编码器组成,分别用于视觉和文本特征编码。CLIP的训练目标是通过对比损失,将图像和文本在嵌入空间中对齐。它使用了4亿个图像与文本对进行全面训练,可以用于图像分类、图像-文本检索以及图像生成等任务。

在这里插入图片描述

此工作使用CLIP作为特征提取器来获取视觉语言场景特征。具体来说,选择代表每个片段的中间帧Ii进行编码,使用预训练的Vision Transformer提取视觉特征Ifi,然后将特征投影到CLIP预训练的视觉投影矩阵L上,以获取图像嵌入fi=L·Ifi。因此,视频X的嵌入特征由Tk个片段组成,定义为公式2b。最后,应用公式1中的视频归一化到嵌入特征中,得到最终嵌入特征F,如公式2c所示。

3 )Temporal Self-Attention (TSA)
我们提出了一种名为TSA的机制,旨在建模视频片段之间的连贯性并选择最相关的前κ个片段。TSA包含三个模块:时间评分网络、前κ个分数提名器和融合网络。首先,使用时间评分网络将特征编码后的视觉语言特征F转化为一个得分向量ω。然后,将得分向量ω传递给前κ个分数提名器,提取最相关的前κ个视频片段。最后,通过融合网络将这些片段进行融合,得到最终的结果。整个TSA机制旨在提高视频片段相关性的建模效果。

这篇论文提出了一种名为TSA的方法来检测视频中的异常事件。该方法使用高斯噪声和软单热编码来改进特征表示,并通过加权特征向量进行异常检测。该方法的流程包括对克隆数据的高斯噪声处理、选取最相关的片段以进行软单热编码和元素级加权,并对编码和特征向量进行融合以创建一个重加权特征向量。最终,这个特征向量用于检测异常事件。

4 ) Difference Maximization Trainer(DMT)
这篇文章介绍了一个基于弱监督的VAD模型CLIP-TSA。它采用了MIL(多实例学习)框架,其中正样本表示异常情况,负样本表示正常情况。该模型利用TSA提取特征,然后通过卷积网络和MLP的组合进行分类。在这之后,模型使用Difference Maximization Trainer(DMT)来增强训练。DMT通过最大化两个对比的视频集合之间的差异性,来增强训练效果。本文还介绍了DMT的核心算法,即top-α实例分离,其目的是通过选择每个卷积注意特征的前α个顶部实例,在两个对比集合之间最大化差异性。

在我们的场景中,该定理表明,随着异常视频中前α个片段的样本数量增加(但不超过ε),两种对比包之间的可分性可以最大化。然而,如果样本数超过了这个数量,由于负(正常)样本的数量开始在负和正包中占主导地位,变得困难。然后,为了计算损失,批次归一化的代表性特征{…Fnormal}|B k=1和{…Fabnormal}|2×B k=B被测量,以彼此之间的边距为基础。一批边距被平均出来,并与使用分数集U计算的基于分数的二元交叉熵损失一起用作网损失的一部分。

5 ) inference
在测试时,使用CLIP提取的视频特征向量F不会进行归一化处理,因为每个特征是在不同的时间评估的。在将Fk输入模型进行测试时,特征Fk将经过提出的TSA过程进行重新加权,以产生重新加权的注意力特征Fˆk。接下来,它们将经过卷积网络模块J,然后是基于MLP的得分分类器网络C,以获取一组分数U。每个分数{ui} | Tk中的每个分数都表示相应索引处片段的异常概率,并携带0到1之间的值。每个分数ui将被四舍五入以产生一组二进制分数U0 = {u0i} | Tk。当二进制分数u0为1时,相应索引处的片段被认为是异常的;而当分数为0时,相应索引处的片段被认为是正常的。最后,U0中的每个二进制分数重复δ次,保持原始顺序,以产生一个向量Uˆ,其常见帧长度与视频X(k)相同,用于根据公式9进行评估。其余的帧Nk-δ * Tk将被丢弃或填充为视频的最终标签。

实验数据集

  • UCF-Crime数据集包含1900个未经修剪的视频片段,涵盖了13种不同的异常和正常活动。视频中的异常类型包括滥用、逮捕、纵火、袭击、入室盗窃、爆炸、打架、道路事故、抢劫、开枪、入店行窃和破坏。该数据集已进行了视频级别的弱标注,分为正常和异常。数据集已分为训练集和测试集。
  • ShanghaiTech Campus数据集包含317398帧视频片段,覆盖了上海科技园区的多个区域。数据集共包含13个场景,其中300308帧表示正常事件,其余17090帧包括130个不同的异常事件。数据集已分为训练集和测试集,测试集中的异常事件已在像素级别进行注释。
  • XD-Violence数据集包含217小时的4754个未经修剪的视频,包括六种不同的异常和正常活动。训练集包含视频级别注释,而测试集包含帧级别的注释。数据集已分为训练集和测试集。
  • UCF-Crime和Shanghai数据集使用AUC@ROC进行评估,而XD-Violence数据集使用AUC@PR进行评估。

实验细节:
本文介绍了一个名为CLIP-TSA的视频暴力检测模型。在训练时,将每个视频分为32个视频片段,使用三层512、256和1个单元的MLP作为评分器网络。使用CLIP提取场景要素的特征。为了达到最佳性能,在UCF-Crime、ShanghaiTech Campus和XD-Violence数据集上分别选择了0.7、0.7和0.9作为rc的值。最终模型通过PyTorch实现,并使用Adam优化器进行端到端的训练,使用的批量大小为16,训练迭代次数分别为4000、35000和4000。

性能对比
本文除了介绍了CLIP-TSA模型外,也在UCF-Crime和ShanghaiTech Campus数据集上进行了实验比较。实验结果表明,我们的模型在不同的监督设置下,均取得了比其他最先进方法更好的效果。与当前最佳表现的模型相比,我们的CLIP-TSA在UCF-Crime数据集上性能更好,较之优势达到了2.2%。此外,在使用C3D和I3D特征时,我们的模型也表现出了明显优势。在ShanghaiTech Campus数据集上的实验结果也证明了我们的模型在场景分类中表现优秀。

研究表明,通过端到端训练,CLIP-TSA模型在XD-Violence数据集上的表现优于当前最优秀的模型Wu & Liu (2021)0.84%。在XD-Violence数据集上,CLIP-TSA模型也比其他最高水平的模型表现更优异,超过了C3D、I3D和CLIP等模型。对于ShanghaiTech Campus数据集,由于其已经非常接近完美分类(接近100%)且可能存在一些噪声或主观因素,因此相对于其他两个数据集来说,其性能提升空间较小。

总结

本文介绍了CLIP-TSA,这是一种有效的端到端弱监督VAD框架。作者提出了新颖的TSA机制,可以在子特征集上最大化注意力,同时最小化噪声上的注意力,并将其应用于弱监督VAD问题中。作者还将TSA应用于CLIP提取的特征中,展示了TSA在视觉语言特征中的有效性,并在三个流行的VAD数据集上与SOTAs进行了比较,从而验证了模型的卓越性。未来的研究可以探索更好的技术来结合时间和空间信息并处理带有较少注释的不平衡数据。注意力方面的技术(如Li等人,2022年)和自监督学习(如Caron等人,2021年;Chen等人,2020a年)也是提高性能的潜在扩展。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值