AAAI-2024 | VadCLIP: 首个基于视觉-语言模型的弱监督视频异常检测方法

最新推荐文章于 2024-08-16 17:03:30 发布

我爱计算机视觉

最新推荐文章于 2024-08-16 17:03:30 发布

阅读量601

点赞数

文章标签：语言模型人工智能自然语言处理

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTE1NjQxMQ==&mid=2247618606&idx=1&sn=d3500a46a3e238ed30d7ca22fc884544&chksm=970d25d932cc66a0afac942a8a7efbc30ef0a1ac881dc109614e3d5b09d10356746ce2905aa9&scene=126&sessionid=0

版权

关注公众号，发现CV技术之美

本文分享论文VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection,该论文已被 AAAI 2024 接收，代码和相关CLIP特征已开源。

详细信息如下：

Code&CLIP features：https://github.com/nwpu-zxr/VadCLIP)
论文链接：https://arxiv.org/abs/2308.11681
作者：吴鹏，周学荣（研二，学生一作），庞观松（SMU），周玲茹，闫庆森，王鹏，张艳宁。

一、引言

近年来，弱监督视频异常检测（WSVAD，VAD）因其广阔的应用前景而受到越来越多的关注，在WSVAD任务中，期望异常检测器在仅提供视频级注释的情况下生成的精细化帧级异常置信度。

然而当前该领域的大多数研究遵循一个系统性的框架，即，首先是使用预先训练的视觉模型来提取帧级特征，例如C3D、I3D和ViT等，然后将这些特征输入到基于多实例学习（MIL）的二分类器中进行训练，最后一步是用预测的异常置信度检测异常事件。

尽管这类方案很简单，分类效果也很有效，但这种基于分类的范式未能充分利用跨模态关系，例如视觉语言关联。

在过去的两年里，我们见证了视觉语言预训练（VLP）模型取得了巨大进展，例如CLIP，用于学习具有语义概念的广义视觉表示。CLIP的主要思想是通过对比学习来对齐图像和文本，即将图像和匹配的文本描述在联合特征空间拉近，同时分离不匹配的图文对。

鉴于CLIP的突破性的潜力，在CLIP之上构建任务专用模型正成为新兴的研究课题，并应用于广泛的视觉任务，这些模型取得了前所未有的性能。最近，越来越多的视频理解领域的工作利用CLIP构建专用模型并解决各种视频理解任务。基于此，我们认为CLIP对于WSVAD任务同样有巨大的潜力。

为了有效利用广义知识，使CLIP在WSVAD任务中充分发挥其潜力，基于WSVAD的特点，有几个关键的挑战需要解决。

首先，如何进行时序关系建模，捕获上下文的依赖关系；
其次，如何利用视觉信息和文本信息联系；
第三，如何在弱监督下优化基于CLIP的模型。

针对上述的问题，我们提出了一种基于CLIP的WSVAD新范式，称为VadCLIP。VadCLIP由几个组件组成，包括一个局部-全局时序关系适配器(LGT Adapter)，一个由视觉分类器和视觉语言对齐模块组成的双分支异常检测器（Dual Branch）。

我们的方法既可以利用传统WSVAD的分类范式，又可以利用CLIP提供的视觉语言对齐功能，从而基于CLIP语义信息和两个分支共同优化以获得更高的异常检测性能。

总的来说，我们工作的主要贡献是：

我们提出了一个新的WSVAD检测方法，即VadCLIP，它涉及双分支网络，分别以视觉分类和语言-视觉对齐的方式检测视频异常。借助双分支的优势，VadCLIP实现了粗粒度（二分类）和细粒度（异常类别多分类）的WSVAD。据我们所知，VadCLIP是第一个将预先训练的语言视觉知识有效地转移到WSVAD的工作。
我们提出的方法包括三个重要的组成部分，以应对新范式带来的新挑战。LGT适配器用于从不同的角度捕获时间依赖关系；设计了两种提示机制来有效地使冻结的预训练模型适应WSVAD任务；MIL对齐实现了在弱监督下对视觉文本对齐范式的优化，从而尽可能地保留预先训练好的知识。
我们在两个大规模公共基准上展示了VadCLIP的性能和有效性，VadCLIP均实现了最先进的性能。例如，它在XD Violence和UCFCrime上分别获得了84.51%的AP和88.02%的AUC分数，大大超过了当前基于分类的方法。

二、方法

VadCLIP的模型结构如图所示，主要包括了三个部分，分别为局部全局时序关系适配器（LGT Adapter）、视觉二分类分支和视觉文本对齐细粒度分类分支。

2.1 LGT Adapter

LGT Adapter由局部关系Transformer和全局关系图卷积串联组成。考虑到常规的Transformer在长时视频时序关系建模时冗余信息较多、计算复杂度较高，我们改进了局部Transformer的mask，从时序上将输入视频帧特征分割为多个等长块，令自注意力计算局限于块内，减少了冗余信息建模，降低计算复杂度。

为了进一步捕获全局时间依赖性，我们在局部模块之后引入了一个轻量级的图卷积模块，由于其在WSVAD任务中得到广泛采用，性能已经被证明，我们采用GCN来捕获全局时间依赖关系。根据之前的工作，我们使用GCN从特征相似性和相对距离的角度对全局时间依赖性进行建模，可以总结如下：

特征相似性分支通过计算两帧之间的特征的余弦相似度生成GCN邻接矩阵：

相对距离分支通过两帧之间的距离生成GCN邻接矩阵，其中i和j是两个视频帧的位置索引， σ 是超参数：

生成的两个邻接矩阵通过以下的公式计算得到图卷积的输出结果，其中W是图卷积层自身的参数：

2.2 双分支结构

与之前的其他WSVAD工作不同，我们的VadCLIP包含双分支，除了传统的异常二分类分支之外，我们还引入了一种新颖的视觉-文本对齐分支。二分类分支和传统的WSVAD工作类似，使用一个带有残差连接的FFN和二分类器，直接计算经过时序关系建模的视觉特征的帧级别异常置信度：

而在视觉文本对齐分支中，文本标签，例如虐待、暴乱、打架等，不再被编码为一个one-hot向量，相反，它们被冻结参数的CLIP文本编码器编码为一个类嵌入向量，因为文本编码器可以为视频异常检测提供语言知识。然后，我们计算类嵌入和帧级视觉特征之间的匹配余弦相似度，这类似于CLIP。在视觉文本对齐分支中，每个输入文本标签代表一类异常事件，从而自然地实现了细粒度的WSVAD。

在WSVAD中，文本标签是单词或短语，它们过于简洁，无法很好地概括异常事件。为了学习文本嵌入的鲁棒可转移性，我们从CoOp中获得灵感，将可学习提示添加到原始类嵌入中。

具体来说，先将原始文本标签通过CLIP的tokenizer和编码为原始的词嵌入，然后将多个可学习提示加入原始词嵌入的前方和后方，如下式所示，其中表示原始类别文本嵌入：

将组装好的新嵌入和位置信息嵌入相加，送入冻结的CLIP文本编码器中得到类嵌入。

为了进一步提高文本标签对异常事件的表示能力，我们研究了如何使用视觉上下文来细化类嵌入，因为视觉上下文可以使简洁的文本标签更加准确。

为此，我们提出了一种异常聚焦视觉提示，它关注异常片段中的视觉嵌入，并将这些嵌入聚合为类嵌入的视频级提示。

我们首先使用从二分类分支获得的异常置信度A作为异常注意力，然后通过异常注意力和视频特征X的点积计算视频级别提示，然后进行归一化，如下所示：

聚合后的异常聚焦视觉提示和文本类嵌入相加，通过简单的FFN和残差后得到最终的异常聚焦视觉提示：

通过可训练文本提示和异常聚焦视觉提示，我们将最终的类嵌入和视觉特征计算余弦相似度，并得到视觉文本对齐分支的细粒度分类置信度。

2.3 损失函数

对于二分类分支，我们遵循先前的工作，使用Top-K机制选择异常和正常视频中的前K个高异常置信度作为视频级预测分数。然后，我们使用视频级别预测分数和GT之间的二进制交叉熵来计算分类损失。

对于视觉文本对齐分支，我们提出了类似于普通MIL的MIL Align机制，将普通MIL扩展到多分类MIL。具体来说，我们考虑对齐映射矩阵M（如模型结构图中A-branch所示），因为它表达了帧级视频特征和所有类嵌入之间的相似性。对于每一个类别，我们选择top-K个相似度并计算所有帧的平均值，以测量该视频与当前类之间的对齐程度，然后我们获得一个向量 s={s_1，…，s_m} ，它表示这个视频和所有类之间的相似性。我们希望视频及其配对的文本标签在其他视频中具有最高的相似性得分。为此首先如下计算多类预测：

其中，是第i类的预测置信度，τ 是用于缩放的温度超参数。最后，使用交叉熵计算多类别对齐损失。除了分类损失和对齐损失，我们还引入了对比损失来稍微推开正常类嵌入和其他异常类嵌入，这里我们首先计算正常类嵌入与其他异常类嵌入式之间的余弦相似性，然后计算对比损失，如下所示，其中是正常类嵌入，是异常类嵌入：

最终的损失函数为上述三个损失函数相加：