HAWK：学习理解开放世界视频异常（HAWK: Learning to Understand Open-World Video Anomalies）

温柔哥`

已于 2025-03-11 22:31:09 修改

阅读量588

点赞数 6

分类专栏：视频异常检测大模型文章标签： VAD 视频异常检测运动模态大模型 QA对生成语言描述生成开放世界

于 2024-07-30 22:46:31 首次发布

本文链接：https://blog.csdn.net/lemonzjk/article/details/140797168

版权

大模型同时被 2 个专栏收录

18 篇文章

订阅专栏

视频异常检测

17 篇文章

订阅专栏

文章目录

摘要
一、引言
二、相关工作
- 2.1 视频异常检测
- 2.2 在视频理解方面的大模型
三、数据工程
四、方法
五、实验
六、结论

摘要

问题

现有VAD系统是对场景肤浅的语义理解
有限的用户交互
数据集中的数据稀缺限制在开放世界场景中的使用

注释工作

对超过8000个异常视频进行了语言描述的注释
并创建了8000个QA对

HAWK方法

HAWK是利用交互式大型视觉语言模型（VLM）来解释异常的新框架。

明确整合运动模态来增强异常识别
构建辅助一致性损失来增强运动注意力，即让视频分支更关注于运动模态
建立运动与语言表示之间的监督来提高运动到语言的解释能力

实验结果

HAWK在视频描述生成和问答任务中实现了最先进的性能，超越了现有的基准系统

开源

数据集

一、引言

图1：在VAD中不同的架构。

（A）是传统的VAD，他使用一个二分类器来检测异常
（B）是使用多分类器整合语义信息来给出对不同类型的异常信息，仅限于检测异常帧
（C）是之前的视频理解框架，可以交互式的为用户提供丰富的语义信息（但更多关注的是长距离上下文信息，而不是异常信息），但是不能准确定位异常（因为主要依赖伪标签）
（D）为本文提出的方法，提高了异常理解能力，并使用带有丰富语义信息的注释标签来训练

1.1 问题

如图1（A）所示，对场景的语义理解较浅，用户交互不足
如图1（B）所示，仅限于检测异常帧，仍需进一步手动分析来理解异常
如图1（C）所示，主要依赖于伪标签进行训练，更多关注长距离上下文信息，而不是与异常相关特征

1.2 提出HAWK方法

HAWK是一个交互式VLM（interactive large visual-language model），用于精确理解视频异常，如图1（D）所示。

正常视频和异常视频中的运动差异显著。通过双分支框架显式集成运动模态，以增强对异常的理解（4.1）
增强运动注意力。基于原始视频（外观特征）和其运动之间的互信息，在紧空间中构建了一个辅助一致性损失（4.2）隐式引导视频分支关注运动相关特征
增强运动与相应语言的解释。从原始描述中提取与运动相关的语言（动词及其实体），以监督运动的视觉和语言表示（4.3）。

1.3 数据集处理

从7个数据集收集
为每个视频生成语言描述
利用描述生成QA对——用于训练

想要更接近开放世界场景

1.4 训练

在 WebVid上进行预训练，使其能理解一般视频
在提出的数据集上进行微调，增强其在多个场景中对异常的理解

与基准相比，模型在文本级别和 GPT 引导指标中都实现了最先进的性能。文本级别应该指的是生成的描述质量如何。GPT引导指标应该指的是模型回答问题回答的怎么样。

1.5 贡献

提出HAWK，集成运动模态
为7个数据集生成语言描述和QA对
HAWK在多个场景中展现了最先进的视频异常理解和问答性能

二、相关工作

2.1 视频异常检测

提出的框架不仅集成了更全面的语义信息，而且为用户提供了先进的交互能力

2.2 在视频理解方面的大模型

在提出的模型中引入运动模态，优先考虑相关的视频内容

三、数据工程

$\color{red}{不仅可以理解视频中多种异常情况，还支持开放场景下的问答}$

图2：数据集生成的流程。

第一行，首先将视频分割为片段密集片段并生成描述，然后通过将描述 + prompt 输入给GPT4来生成与异常视频相关的描述，并且要人工检查出错误的
第二行，将两个原则 + prompt 输入给GPT4来生成问题，并通过人工选出最合适的100个问题，将他们随机分给不同的视频，然后将上面的描述 + 问题 + prompt 输入给GPT4来生成答案

3.1 原理

3.1.1 语言描述

对7个数据集进行详细的语言描述标注，涵盖了多种异常场景：

犯罪（UCF-Crime）
校园（ShanghaiTech、CUHK Avenue）
人行道（UCSD Ped1、Ped2）
交通（DoTA）
人类行为（UBnormal）

各种异常场景进行全面的微调，使其更接近开放世界场景

3.1.2 开放性问题

为每种场景构建了开放式的QA对，进一步增强模型对用户各种问题的实际回答能力。过程如图2所示。数据格式如下：

在这里插入图片描述

3.2 异常视频描述生成

首先将视频拆分为密集的片段，确保捕捉到关键信息
使用感知工具（InternVideo、Tag2Text、GRiT）自动生成每个片段的描述（UCF-Crime本身就有）
将描述 + prompt（生成与视频异常相关的具体描述）给GPT-4来为每个视频生成与异常相关的描述
人工检查不准确的标注

3.3 以人为中心的QA对生成

虽然已经获得准确的异常视频描述。但仍可能面临用户提出的更开放性问题的挑战。

3.3.1 两个原则

与异常相关：问题应与视频中的异常紧密相关
5W2H：What、Who、Where、When、How、How much和Why

3.3.2 流程

将两个原则 + prompt 输入GPT-4来生成异常视频的开放性问题
人工选择出最合适的100个问题，随机分配给每个视频
将问题 + prompt 输入GPT-4来为 <Q $\rm{UESTIONS}$ > 生成 <A $\rm{NSWERS}$ >

四、方法

以前的方法对视频中所有部分给予同等的注意，忽略了异常特征。

方法旨在将异常准确的解释为自然语言。

方法的核心为引导视觉指令专注于异常。因为以前的研究证明运动相关特征有助于识别多个异常，所以接下来会围绕着运动模态。

图3：HAWK概述。在训练过程中，旨在优化3个损失：

①原始视频到语言匹配损失，是为了生成一般性的语言描述吗？
②原始视频到运动一致性损失，是为了让原始视频更关注与运动相关的
③运动到语言匹配损失，是为了让模型更好的描述运动

4.1 显式集成运动模态

HAWK专门集成了运动模态，采用双分支架构：

$f_v$ 表示原始视频理解网络
$f_m$ 表示运动理解
两者架构相同但参数独立

整体框架如下：
在这里插入图片描述

$\mathbf{X_v} \in \mathbb{R}^{T\times C\times H\times W}$ 表示用于提取外观特征的<VIDEO>输入
- $T$ 表示时间维度
$\mathbf{X_m}=M(\mathbf{X_v})$ 表示用于提取运动特征的<VIDEO>输入
- $M (\cdot)$ 表示运动提取器
$f_m$ 、 $f_v$ 表示来自 BLIP-2 的冻结预训练视频编码器，用于输出嵌入
- 一个 EVA-CLIP
- 一个预训练的 Video Q-Former
$P_v(·)$ 、 $P_m(·)$ 表示对于视频和运动的可学习的投影网络，旨在将视觉（视频和运动）嵌入投影到语言特征空间
$f_t(·)$ 表示冻结的文本标记到嵌入的投影，旨在使文本信息可以输入到LLaMA-2中
$\oplus$ 表示组合输入prompt
- prompt为 “Here is the input video embedding: <VIDEO_EMBEDDING> and motion embedding <MOTION_EMBEDDING> in different frames, please help me to <DESCRIBE_VIDEO> | .”
- <DESCRIBE_VIDEO> 是视频描述生成的问题类别
- <QUESTION> 是视频问答的问题类别

通过结合视觉标记嵌入和文本嵌入 $f_t(\mathbf{T})$ 输入给LLaMA-2 来生成最终的语言响应 $\mathbf{Y}$

4.2 隐式增强运动注意

上面虽然集成了运动模态来微调HAWK，但是视频分支和运动分支独立运行，所以视频分支不能提取出关注异常发生区域（运动）的外观特征。

4.2.1 提取运动

为了获得运动信息：
在这里插入图片描述

$M^{(\mathrm t)}(·)$ 表示在时间步 $\mathrm{t}$ 的运动描述
- 用于生成两个连续帧之间的运动
- 使用 Gunnar Farneback 的算法
$\mathbf{X_v^{(t)}}$ 、 $\mathbf{X_v^{(t-1)}} \in \mathbb{R}^{1\times C\times H\times W}$ 表示在时间步 $\mathbf{t}$ 和 $\mathbf{t-1}$ 的视频帧
$\mathbf{X_{Motion}^{(t)}} \in \mathbb R ^{2\times H\times W}$ 包含两个运动向量
- $\mathbf{X}$ 方向（水平）
- $\mathbf{Y}$ 方向（竖直）

使用这些通道的光流幅度作为 $\mathrm{Mask}$ ，归一化到 $[0, 1]$ ，并与原始视频外观进行相乘，以遮蔽其他非运动区域：
在这里插入图片描述

$\times$ 表示逐像素相乘操作
$\mathbf{X_v^{(t)}}$ 、 $\mathbf{X_m^{(t)}} \in \mathbb{R}^{T\times C\times H\times W}$ 表示在时间步 $\mathrm{t}$ 的原始视频和运动信息
- $T$ 表示我们通常会提取 $T$ 帧

4.2.2 构建 $\mathcal L_{MV}$ 损失

图4：HAWK损失可视化。

①表示原始的视频到语言损失
②表示运动模态适应的余弦相似度损失
③表示运动到语言损失

因为 $\mathrm{X_{m}}$ 仅包含关键的异常信息，且是从 $\mathrm{X_{v}}$ 中提取出来的，他们之间有一种包含关系。所以想要让外观特征（原始的视频）可以更加集中在运动区域的话，就将 $\mathrm{X_{m}}$ 与 $\mathrm{X_{v}}$ 压缩到一个紧凑的空间：
在这里插入图片描述

$C_v(·)$ 表示压缩函数
$C_v$ 和 $C_m$ 与 $P_v$ 和 $P_m$ 共享一些初始的浅层参数（见图 3）
$\mathbf{X_{v}^c} = C_v(f_v(\mathbf{X_{v}}))$ 表示 $\mathbf{X_{v}}$ 通过压缩函数压缩后的紧凑表示
$\mathbf{X_{m}^c} = C_m(f_m(\mathbf{X_{m}}))$ 表示 $\mathbf{X_{m}}$ 通过压缩函数压缩后的紧凑表示