Text Prompt with Normality Guidance for Weakly Supervised Video Anomaly Detection-CSDN博客

本文链接：https://blog.csdn.net/L1783516140/article/details/140045576

摘要

弱监督视频异常检测(WSVAD)是一个具有挑战性的课题。目前，基于弱标签生成细粒度伪标签，然后对分类器进行自训练是一种很有前途的解决方案。然而，由于现有方法仅使用RGB视觉模态，忽略了对类别文本信息的利用，从而限制了伪标签更准确的生成，影响了自训练的性能。受基于事件描述的人工标注过程的启发，本文提出了一种基于文本提示与正常性引导(TPWNG)的WSVAD伪标签生成与自训练框架。我们的想法是利用对比语言图像预训练(CLIP)模型丰富的语言视觉知识，对视频事件描述文本和相应的视频帧进行对齐，生成伪标签。具体来说，我们首先通过设计两个排名损失和一个分布不一致损失来微调CLIP的领域自适应。在此基础上，提出了一种可学习的文本提示机制，并辅以正常性视觉提示，进一步提高视频事件描述文本与视频帧的匹配精度。然后，我们设计了一个基于正态性指导的伪标签生成模块来推断可靠的帧级伪标签。最后，我们引入了一个时间上下文自适应学习模块，以更灵活、准确地学习不同视频事件的时间依赖性。大量的实验表明，我们的方法在两个基准数据集(UCF-Crime和XD-Violence)上达到了最先进的性能，证明了我们提出的方法的有效性。

引言

异常检测在计算机视觉[23,35,40,43,49]、自然语言处理[1]、智能优化[29]等多个领域得到了广泛的研究和应用。视频异常检测(VAD)是其中一个重要的研究课题。VAD的主要目的是自动识别视频中与我们期望不一致的事件或行为。

由于异常事件的罕见性帧级标注的难度，目前的VAD方法主要集中在半监督[14,16,18]和弱监督[11,26,52]范式上。半监督VAD方法旨在从正常数据中学习正常模式，偏离该模式被视为异常。然而，由于在训练阶段缺乏判别异常信息，这些模型往往容易出现过拟合，导致在复杂场景下的性能不佳。随后，弱监督视频异常检测(WSVAD)方法开始崭露头角。WSVAD在训练阶段包括正常视频和异常视频，并带有视频级标签，但异常帧的确切位置未知。目前的WSVAD方法主要有基于多实例学习(MIL)的一阶段方法[17,26,27]和基于伪标签自训练的两阶段方法[6,11,51,53]。虽然基于MIL的单阶段方法显示出令人满意的结果，但该范式倾向于关注具有突出异常特征的视频片段，而对次要异常的关注不够理想，从而限制了其进一步的性能提高。

与上述单阶段方法相比，基于伪标签自训练的两阶段方法一般使用现成的分类器或MIL获得初始伪标签，然后使用进一步细化的伪标签训练分类器。由于这些方法直接使用生成的细粒度伪标签训练分类器，因此它们在性能上显示出很大的潜力。然而，这些方法仍有两个方面没有考虑到：第一，伪标签的生成仅基于视觉模态，缺乏对文本模态的利用，这限制了生成伪标签的准确性和完整性。其次，挖掘视频帧之间的时间依赖性是不够的。

为了进一步挖掘基于伪标签的WSVAD自训练的潜力，本文致力于研究上述两个问题。我们提出第一个问题的动机是探索如何有效地利用文本模态信息来帮助生成伪标签。回顾我们手工标记视频帧的过程，我们主要基于异常事件的文本定义，即异常事件的先验知识，来准确定位视频帧。如图1所示，假设我们需要标注包含“战斗”事件的异常视频帧，我们首先关联“战斗”的文本定义，然后寻找匹配的视频帧，这实际上是一个基于先验知识的文本图像匹配过程。受这个过程的启发，我们联想到一个非常流行和强大的对比语言图像预训练(CLIP)模型来帮助我们实现这一目标。一方面，CLIP学习了网络上大量的图像-文本对，因此具有非常丰富的先验知识；另一方面，CLIP通过对比学习进行训练，这使其具有出色的图像-文本对齐能力。对于第二个动机，由于不同的视频事件具有不同的持续时间，这导致了不同的时间依赖性范围。现有的方法要么不考虑时间依赖性，要么只考虑固定时间范围内的依赖性，从而导致对时间依赖性的不充分建模。因此，为了实现更灵活和充分的时间依赖关系建模，我们应该研究能够自适应学习不同长度的时间依赖关系的方法。

在这里插入图片描述

图1

基于以上两个动机，我们提出了一种新的基于文本提示与正常性引导(TPWNG)的WSVAD伪标签生成和自训练框架。我们的主要思想是利用CLIP模型将视频事件的文本描述与相应的视频帧进行匹配，然后从匹配相似度中推断出伪标签。然而，由于CLIP模型是在图像-文本级别进行训练的，因此它可能会受到域偏差的影响，并且缺乏学习视频中时间依赖性的能力。为了更好地将CLIP的先验知识转移到WSVAD任务中，我们首先构建了一个对比学习框架，通过设计两个排序损失和一个分布不一致损失对CLIP模型进行微调，使其在弱监督设置下进行领域自适应。为了进一步提高视频事件描述文本与视频帧对齐的准确性，我们采用可学习的文本提示来促进CLIP的文本编码器生成更广义的文本嵌入特征。在此基础上，我们提出了一种正常视觉提示(NVP)机制来帮助这一过程。此外，由于异常视频中也包含正常视频帧，我们设计了基于正常引导的伪标签生成(PLG)模块，可以减少个别正常视频帧对异常视频帧对齐的干扰，从而便于获得更准确的帧级标签。

此外，为了弥补CLIP中时间关系建模的不足，以及更灵活和充分地挖掘视频帧之间的时间依赖性，我们引入了一个时间上下文自适应学习(TCSAL)模块，用于时间依赖性建模，灵感来自工作[25]。TCSAL通过设计时间跨度自适应学习机制，使Transformer中的注意力模块能够根据输入自适应地调整注意广度。这有助于模型更准确、灵活地捕捉不同持续时间的视频事件的时间依赖性。

总的来说，我们的主要贡献总结如下:

我们提出了一种新的框架，即TPWNG，来对WSVAD进行伪标签生成和自训练。TPWNG利用设计的排名损失和分布不一致损失对CLIP进行微调，将其强大的文本-图像对齐能力转移到通过PLG模块辅助伪标签生成。
为了进一步提高视频事件描述文本和视频帧的对齐精度，我们设计了一种可学习的文本提示和常态正常视觉提示机制。
为了更灵活、准确地学习不同视频事件的时间依赖性，我们引入了TCSAL模块。据我们所知，我们是第一个为VAD引入时间上下文依赖的自适应学习思想的人。
在UCF-Crime和XD-Violence两个基准数据集上进行了大量的实验，实验结果表明我们的方法是有效的。

方法

1、Overall Architecture

形式上，我们首先定义集合 $D^a=\{(v_i^a,y_i)\}_{i=1}^M$ 和 $D^{n}=\{(v_{i}^{n},y_{i})\}_{i=1}^{M}$ ，分别包含 $M$ 个带有真值标签的异常视频和正常视频。对于每个 $v_i^a$ ，将其标记为 $y_i=1$ ，表示该视频至少包含一个异常视频帧，但异常帧的确切位置未知。对于每个 $v_i^n$ ，它被标记为 $y_i=0$ ，表示该视频完全由0正常帧组成。有了这个设置，WSVAD的任务是利用粗粒度的视频级标签，使分类器能够学习预测细粒度的帧级异常分数。

图2说明了我们的方法的整个流程。CLIP的图像编码器和文本编码器分别将正常视频和异常视频以及可学习的类别提示文本编码为特征嵌入。然后，通过对CLIP的文本编码器进行微调，以产生准确匹配异常或正常视频帧的视频事件类别的文本特征嵌入，NVP在此过程中提供帮助。同时，图像特征馈送TCSAL模块进行时间依赖性的自适应学习。最后，在PLG模块获得的伪标签的监督下，训练视频帧分类器来预测异常分数。

在这里插入图片描述

图2

2、Text and Normality Visual Prompt

Learnable Text Prompt

构建能够准确描述各种视频事件类别的文本提示是实现文本与相应视频帧对齐的前提。然而，手动定义能够在所有不同场景中完全描述异常事件的描述文本是不切实际的。因此，受CoOp[55]的启发，我们采用可学习的文本提示机制，自适应学习具有代表性的视频事件文本提示，以对齐相应的视频帧。具体而言，我们构建了一个可学习的提示模板，该模板在标记化的类别名称前面添加了 $l$ 个可学习的提示向量，如下所示:

$p_{label}=(\partial_1,...,\partial_l,Tokenizer(label)),\quad(1)$

$\partial_{l}$ 表示第 $l$ 个提示向量。Tokenizer正在转换原始类别标签，即“fighting”，“accident”，…， " normal "等，通过CLIP tokenizer转换为class tokens。然后，我们将相应的位置信息pos添加到可学习的提示符中，再将其输入到CLIP文本编码器 $\zeta_{text}$ 中，得到视频事件描述文本的特征嵌入 $T_{label}\in\mathbb{R}^D$ ，如下所示：

$T_{label}=\zeta_{text}(p_{label}\oplus{pos}),$ (2)

最后，根据式（1）和式（2）计算所有视频事件类别。得到视频事件描述文本嵌入集 $\begin{aligned}E~=~\{T_1^a,~T_2^a,~...,~T_{k-1}^a,~T_k^n\}\end{aligned}$ ，其中 ${T_i^a\}_{i=1}^{k-1}$ 表示前k−1个异常事件的描述文本嵌入， $T_k^n$ 表示正常事件的描述文本嵌入。

Normality Visual Prompt

对于包含异常帧和正常帧的异常视频，我们的核心任务是从异常事件描述文本与视频帧之间的匹配相似度中推断伪标签。然而，该过程容易受到异常视频中正常帧的干扰，因为它们与异常帧具有相似的背景。为了减少这种干扰，我们提出了一种NVP机制。NVP用于帮助正常事件描述文本更准确地对齐异常视频中的正常帧，从而通过分布不一致性损失间接帮助异常事件描述文本对齐异常视频中的异常视频帧，这将在第3.5节中介绍。具体来说，我们首先计算正常事件的描述文本嵌入与正常视频中的视频帧特征之间的匹配相似度 $S_{i,k}^{nn}\in\mathbb{R}^{F}$ 。然后，将softmax运算后的匹配相似度作为权重，对正常视频帧特征进行加权，得到 $\text{NVP }Q_i\in\mathbb{R}^D$ ，公式表示如下:

$S_{i,k}^{nn}=X_i^n(T_k^n)^\top,Q_i=softmax((S_{i,k}^{nn})^\top)X_i^n,\quad(3)$

式中， $X_{i}^{n}\in\mathbb{R}^{F\times D}$ 为CLIP图像编码器获得的正常视频 $v_i^n$ 的视觉特征，其中 $F$ 为视频帧数， $D$ 为特征维度。然后，我们在特征维度中将 $Q_i$ 和 $T_K^n$ 拼接起来，并输入一个具有跳跃连接的FFN层，以获得增强的正常事件描述的文本嵌入 $\dot{T}_k^n$ 。公式表示为:

$\dot{T}_k^n=FFN((T_k^n\cup Q_i))+T_k^n.$ （4）

3、Pseudo Label Generation Module

在本小节中，我们将详细介绍如何生成帧级伪标签。对于正常视频，我们可以直接得到帧级伪标签，即对于包含 $F$ 个正常帧的 $v_i^n=\{I_j\}_{j=1}^F$ ，它对应于一个标签集 $\{\gamma_{i,j}^{n}=0\}_{j=1}^{F}$ 。我们的主要目标是推断包含异常帧和正常帧的异常视频的伪标签。为此，我们提出了一个基于正常性引导的PLG模块来推断准确的伪标签。PLG模块通过将正常事件描述文本与异常视频的匹配相似度作为引导，纳入相应异常事件描述文本与异常视频的匹配相似度中，推断出帧级伪标签。

具体来说，我们首先计算NVP增强的正常事件描述文本嵌入与异常视频特征之间的匹配相似度 $S_{i,k}^{an}=X_i^a(\dot{T}_k^n)^\top$ ，其中 $X_{i}^{a}\in\mathbb{R}^{F\times D}$ 表示CLIP图像编码器获得的异常视频 $v_i^a$ 的视觉特征。同样，我们计算相应的 $\tau\mathrm{-th~}(1\leqslant\tau\leqslant k-1)$ 真实异常类别的描述文本嵌入 $T_{\tau}^{a}$ 与异常视频特征 $X_i^{a}$ 之间的匹配相似度 $S_{i,\tau}^{aa}=X_i^a(T_\tau^a)^\top$ 。

理论上，对于 $S_{i,\tau}^{aa}$ ，它对应异常帧的匹配相似度应该很高，对应正常帧的匹配相似度应该很低。但它可能会受到来自具有相同背景的同一视频的正常帧的干扰。为了减少正常帧的干扰，我们将具有一定权重的正常事件描述文本对应的匹配相似度作为引导，纳入到对应的真实异常事件描述文本的匹配相似度中，从而推断出伪标签。具体来说，我们首先对 $S_{i,\tau}^{aa}$ 和 $S_{i,k}^{an}$ 进行归一化和融合操作，如下所示:

$\psi_i=\alpha\tilde{S}_{i,k}^{an}+(1-\alpha)(1-\tilde{S}_{i,\tau}^{aa}),$ （5）

其中， $\tilde{*}$ 表示归一化操作，α表示引导权重。在得到 $\psi_{i}$ 之后，我们同样对其进行归一化运算得到 $\tilde{\psi}_{i}$ 。然后，我们在 $\tilde{\psi}_{i}$ 上设置阈值 $\theta$ 得到异常视频的帧级伪标签。如下所示:

$\left.\gamma_{i,j}^a=\left\{\begin{array}{c}1,\tilde{\psi}_{i,j}\geq\theta;\\0,\tilde{\psi}_{i,j}<\theta,\end{array}\right.\right.i=1,2,...,M;j=1,2,...,F\quad(6)$

式中， $\gamma_{i,j}^a$ 表示第 $i$ 个异常视频第 $j$ 帧的伪标签。最后，我们将正常视频和异常视频的帧级伪标签 $\gamma_{i,j}^{n}$ 和 $\gamma_{i,j}^{a}$ 结合起来，得到总的伪标签集 $\{\gamma_{i,j}\}_{j=1}^F$ 。

4、Temporal Context Self-adaptive Learning

为了根据输入的视频数据自适应调整时间关系的学习范围，受[25]工作的启发，我们引入了TCSAL模块。TCSAL的主干是Transformer-encoder，但与原始Transformer不同的是，注意力的跨越范围由每层每个自注意头的软掩码函数 $\chi_{z}$ 控制。 $\chi_{z}$ 是一个分段函数，将距离映射到[0,1]之间的值，如下所示:

$\chi_z(h)=\min\left[\max\left[\frac1R(R+z-h),0\right],1\right],\quad(7)$

其中 $h$ 表示当前视频中的第 $t$ 帧与过去时间范围内第 $r$ $(r\in[1,t-1])$ 帧之间的距离。 $R$ 是一个用于控制softness的超参数。 $z$ 是一个可学习的参数，随着输入自适应调整如下:

$z=F\sigma(C^\top X+b),$ （8）

其中σ表示sigmoid运算， $C$ 和 $b$ 是模型训练时的可学习参数。利用软掩码函数 $\chi_{z}$ ，在该掩码内计算相应的注意权值 $\omega_{t,r}$ ，即

$\omega_{t,r}=\frac{\chi_z(t-r)\exp(\beta_{t,r})}{\sum_{q=1}^{t-1}\chi_z(t-q)\exp(\beta_{t,q})},$ （9）

这里 $\beta_{t,r}$ 表示视频中第 $t$ 帧对应的Query与过去第 $r$ 帧对应的Key的点积输出。在 $\chi_{z}$ 的控制下，自注意力头能够根据输入自适应调整自注意力广度。

最后，将时间上下文自适应学习后的视频特征输入到分类器中，预测帧级异常分数 $\{\eta_{i,j}\}_{j=1}^{F}$ 。

5、Objective Function

首先，我们微调CLIP文本编码器。对于一个正常视频，我们进一步计算了其他k−1个异常事件的描述文本与正常帧之间的匹配相似度集 $\varphi_i^{na}=\{S_{i,\tau}^{na}=X_{i}^{n}(T_{\tau}^{a})^{\top}|1\leqslant\tau\leqslant k-1\}$ 。我们期望相似性集 $\varphi_i^{na}$ 中的最大值尽可能小，而相似性集 $S_{i,k}^{nn}$ 中的最大值尽可能大。因此，我们设计约束的排序损失如下:

$L_{rank}^n=\max(0,1-\max(S_{i,k}^{nn})+\max(\max(\varphi_i^{na})).(10)$

对于一个异常视频，我们首先计算正常事件描述文本嵌入与异常视频特征之间的相似度 $S_{i,k}^{an}=X_i^a(\dot{T}_k^n)^\top$ ，第 $\tau$ $(1\leqslant\tau\leqslant k-1)$ 个真实异常事件类别描述文本嵌入与异常视频特征之间的相似度 $S_{i,\tau}^{aa}=X_i^a(T_\tau^a)^\top$ ，以及其他k−2个异常事件类别的描述文本嵌入与异常视频特征之间的相似度集 $\varphi_{i}^{aa}=\{S_{i,g}^{aa}=X_{i}^{a}(T_{g}^{a})^{|}|1\leqslant g\leqslant k-1,g\neq\tau\}$ 。我们期望 $S_{i,k}^{an}$ 的最大值应该大于 $\varphi_{i}^{aa}$ 的最大值。同样， $S_{i,\tau}^{aa}$ 的最大值应大于 $\varphi_{i}^{aa}$ 的最大值。简而言之，就是我们期望真实的异常事件和正常事件的描述文本分别以尽可能高的相似度与异常视频中的异常帧和正常帧相匹配。因此，异常视频的排名损失设计如下:

$\begin{array}{c}L_{rank}^a=\max(0,1-\max(S_{i,k}^{an})+\max(\max(\varphi_i^{aa})))+\\\max(0,1-\max(S_{i,\tau}^{aa})+\max(\max(\varphi_i^{aa}))).\end{array}$ （11）

此外，为了进一步保证真实异常事件和正常事件的描述文本能够分别准确对齐异常视频中的异常和正常视频帧，我们设计了分布不一致损失(DIL)。DIL用于约束真实异常事件描述文本与视频帧之间的相似度，使其与正常事件描述文本与视频帧之间的相似度分布不一致。我们使用余弦相似度来执行这个损失：

$L_{dil}=\frac{1}{MF}\sum_{i=1}^{M}\sum_{j=1}^{F}\frac{\tilde{S}_{i,j,\tau}^{aa}\cdot\tilde{S}_{i,j,k}^{an}}{\left\|\tilde{S}_{i,j,\tau}^{aa}\right\|_{2}\cdot\left\|\tilde{S}_{i,j,k}^{an}\right\|_{2}}.\quad(12)$

然后，在工作[26]之后，为了使生成的伪标签在时间顺序上满足稀疏性和平滑性，我们对相似向量 $\tilde{S}_{i,\tau}^{aa}$ 施加稀疏性和平滑性约束 $L_{sp}=\sum_{j=1}^{F}\left(\tilde{S}_{i,j,\tau}^{aa}-\tilde{S}_{i,j+1,\tau}^{aa}\right)^{2},L_{sm}=\sum_{j=1}^{F}\tilde{S}_{i,j,\tau}^{aa}$ 。