摘要
背景和挑战
- 大型多模态视频模型(Video-LMMs, Large Multi-modal Video Models)的发展显著提升了视频数据的处理能力
- 但目前尚未有系统性的评估证明这些模型在异常检测任务上的表现如何,如识别深度伪造、犯罪活动
VANE-Bench基准的设计
VANE-Bench数据集旨在评估Video-LMMs在视频中检测和定位异常与不一致性
能力的基准。
- 包含了使用现有最先进的
文本生成视频模型
合成生成的视频,涵盖了多种细微异常,分为五类:- 不自然的变换
- 不自然的外观
- 穿越
- 消失
- 突然出现
- 还包括了来自
现实世界
的样本,这些样本来自现有的异常检测数据集,重点关注- 犯罪相关的异常事件
- 非典型的行人行为
- 不寻常事件
任务和评估方法
- 设计了一个结构化的
视觉问答挑战
,以评估模型在视频中准确检测和定位异常的能力
实验结果和结论
- 评估了九种现有的Video-LMMs,包括开源和闭源模型,发现大多数模型在
识别细微异常方面存在困难
代码和数据
一、引言
1.1 当前状态
像ChatGPT这样的大语言模型(LLMs)在不同领域开创了AI的新时代,LLMs的发展趋势是引入视觉和音频等多模态能力
,进一步增强了这些模型的功能。
1.2 挑战和动机
问题是当前的大型多模态模型(LMMs, Large Multi-modal Models)能否有效应对视频异常检测(VAD)问题
,这对工厂、自动驾驶、犯罪预警和交通管理等领域的应用至关重要
由于扩散模型和变压器等算法的进步,AI生成的视频质量显著提升
,目前领先的AI文本到视频模型SORA
来自OpenAI,生成的视频几乎无法与真实录像区分开,因此,SORA给带来了一系列挑战,如:
- 可能被误认为是真实事件发生的录像
- 识别和区分深度伪造视频变得更加困难
- 区分是真视频还是SORA生成的假视频
1.3 提出 VANE-Bench
VANE-Bench(Video ANomaly Evaluation Benchmark)是一个视频异常评估基准,旨在评估Video-LMMs在检测视频中异常的能力
,包含:
- 来自各种监控录像的真实世界异常
- 异常的行人行为
- 犯罪活动
- 不寻常事件
- 从AI生成的视频中发现的细微和具有挑战性的异常(图1所示)
图1:VANE-Bench中从哪生成AI视频。
- 从 5 5 5 个途径收集,分别是SORA、Open-Sora、Runway Gen2、ModelScopeT2V和VideoLCM
- 正确选项有加粗
- 因为整个视频在一秒钟内播放,变化发生在快速的连续过程中,所以这些异常非常微妙,连人类都很难发现
- 红色边框在实际数据集中是没有的
1.4 评估方法和结果
- 将VAD问题重新定义为
视觉问答(VQA, visual question-answering)
任务来评估LMMs在异常检测中的表现 - 评估了九种最新的Video-LMMs,大多数模型在VANE-Bench上仍然面临困难(图2所示)
图2:模型识别异常片段的准确率。
- 左图: 9 9 9 种Video-LMMs在SORA生成的 5 5 5 种异常类别视频中的性能
- 右图: 9 9 9 种Video-LMMs在AI生成的和现实世界中的视频的整体性能
1.5 结论
- VANE-Bench是解决AI生成视频带来的新挑战的重要进展
- 强调了提升Video-LMMs在异常检测中能力的紧迫性
1.6 贡献
- 提出视频异常评估基准VANE-Bench
- 325个视频片段
- 559个问答对(question-answer pairs)
- 来自现实的监控视频和人AI生成的视频
- 突出VANE-Bench的挑战性
- 对9个SOTA的Video-LMMs进行评估
- 大多数模型表现较差
- 详细的结果分析
- 还进行了人工评估
- 开源代码和数据
- 描述了数据的构建过程
二、相关工作
2.1 Video-LMMs
Video-LMMs能够处理同时包含语言和视觉数据的视频
,通常基于LLMs(大型语言模型),例如Llama,并通过Q-former等接口与特定模态的编码器连接。
- VideoChat:以聊天为中心的系统,旨在处理视频内容。
- VideoChatGPT:结合了视觉编码器和LLM以支持详细的视频对话。
- Video-LLaMA:通过Q-formers集成音频和视觉信号,扩展了多模态处理的能力。
- LLaMA-VID:采用上下文和内容令牌来表示每帧,实现更高效的视频处理。
2.2 Video-LMMs Benchmarking
- SEED-Bench 和 MV-Bench:通过多项选择题评估视频理解能力,但缺乏对AI生成视频的关注。
- CVRR-ES:使用开放式问题评估真实场景下的视频处理,但未涉及AI生成内容的一致性问题(与现实世界中真实内容的一致性和真实性问题)。
- VANE-Bench:专门评估在
真实和AI生成
视频中的视频异常检测(VAD),着重评估AI生成内容中的细微异常
Perception Test集中于真实世界视频的底层感知能力,而VANE-Bench则侧重于AI生成内容中的细微异常。
2.3 视频异常检测
传统的视频异常检测方法通常依赖于手工设计的特征和统计模型,用于识别与正常状态不符的偏差。但是这些传统方法在处理复杂的AI生成视频时经常失败。
VANE-Bench通过专注于AI生成的高保真度视频中的异常情况来解决这一问题。
三、数据集 & 基准测试
多模态大型语言模型(LLMs, multi-modal Large Language Models)的最新发展使得这些模型能够处理文本、图像和视频数据,我们目的是评估这些多模态模型(LMMs, multi-modal models)在VAD上的能力
。
为了解决VAD问题,提出了VANE-Bench,将VAD问题转化为多项选择视频问答(MC-Video QA, Multiple-Choice Video Question Answering)
任务(325个视频,559个QA对)
3.1 VANE-Bench 概述
- 包含325个视频片段,涵盖了真实世界和合成视频异常情况
- 将标准的视频异常检测(VAD)监控数据集(如CUHK Avenue、UCF-Crime和UCSD Pedestrian)改编为MC-Video QA任务
- 包括了来自各种开源和最先进闭源文本到视频扩散模型的197个视频片段
- 数据背景多样,难度级别不一
3.2 数据集类别
VANE-Bench包括现实与合成视频的各种类别,其中:
- 对于现实监控录像,每个类别代表一种不同的视频异常
- 对于AI合成视频,每个类别代表一个不同的来源
3.2.1 现实世界异常
图3:VANE-Bench数据集统计。
- 左图:AI生成的异常视频的分布
- 中图:现实世界的异常视频的异常类型
- 右图:每个数据集中异常视频片段的总数,以及相应的问答对(QA pairs)
3.2.1.1 CUHK Avenue
捕捉了校园环境中的异常事件,如个体在大学校园内通勤、进出建筑物
- 11个视频片段
- 33个QA对
- 异常类型为异常的行人行为,如:
- 随机扔包和纸张
- 进行奇怪的动作或舞蹈
3.2.1.2 UCF-Crime
来自真实的监控录像
- 95个视频片段
- 95个QA对
- 异常类型为各种犯罪活动
- 逮捕
- 袭击
- 入室盗窃
- 抢劫
- 偷窃
- 破坏行为
3.2.1.3 UCSD-Ped1
由垂直于道路的摄像机捕获的人行道上的视频
- 10个视频片段
- 30个QA对
- 异常类型为人行道上的非行人实体
- 骑自行车者
- 滑冰者
- 小车
- 轮椅
3.2.1.4 UCSD-Ped2
由平行于道路的摄像机捕获的人行道上的视频
- 12个视频片段
- 36个QA对
- 异常类型为人行道上的非行人实体
- 骑自行车者
- 滑冰者
- 小车
- 横穿人行道者
3.2.2 AI生成异常
来自各种闭源和开源的文本到视频扩散模型,异常类型包括:
- 物体突然出现
- 固体物体的非自然转换
- 物体消失
- 物体穿过其他固体
- 物体的非自然外观(如扭曲和畸变的面部特征,或类似额外手指的异常外观)
3.2.2.1 SORA
由SORA(SOTA的AI文本到视频生成模型)生成的视频片段
- 46个视频片段
- 138个QA对
- 几乎逼真,很难识别视频中的不一致或异常
3.2.2.2 OpenSora
由开源版本的SORA生成的视频片段
- 50个视频片段
- 50个QA对
3.2.2.3 Runway Gen2
由商业的文本到视频AI模型[25]生成的视频片段
- 25个视频片段
- 25个QA对
3.2.2.4 ModelScopeT2V
由[31]中训练的文本到视频扩散模型生成的视频片段,每秒16帧,共进行50个扩散步骤
- 24个视频片段
- 48个QA对
3.2.2.5 VideoLCM
由潜变一致性模型[32](可以创建具有高可变性和更少延迟的视频)生成的视频片段,每秒16帧,共进行20个扩散步骤,并经过LCM模型后处理以获得更高质量的视频
- 52个视频片段
- 104个QA对
3.3 数据收集方法概述
- 首先使用帧注释模块(FAM)对异常进行注释
- 字幕生成模块(CGM)利用这些注释生成标题
- QA对生成模块(QAGM)基于注释的帧和标题生成QA对。
图4:VANE-Bench数据集的半自动化构建流程。主要分给3个模块处理:
- 帧注释模块FAM
- 字幕生成模块CGM
- QA对生成模块QAGM
3.3.1 帧注释模块
- 从现有的VAD数据集(CUHK Avenue、UCF-Crime、UCSD-Ped)中收集原始视频,并添加AI生成视频
- 只需为AI生成视频标注其中的异常,因为VAD视频已经提供了边界框标注(应该是使用的测试集中已经标注好的视频)
- 首先将原始视频分解成图像帧
- 从视频中选择并筛选出包含不一致性的连续10帧
- 用边界框标注这些选定的帧,并说明不一致性的类型(‘突然出现’、‘非自然转换’、‘消失’、‘穿越’和’非自然外观’)
这个不一致性指的就是异常类型吗???
3.3.2 字幕生成模块
使用GPT-4o模型接收自定义提示prompt
和来自FAM的带注释的帧
,生成高质量且详细的描述,描述视频中的不一致性以及一般事件
3.3.3 QA对生成模块
使用GPT-4o模型接收自定义提示prompt
、来自FAM的带注释的帧
和来自CAM生成的视频描述
,生成高质量且具有挑战性的QA对
3.3.4 最终数据集
包含不一致性的原始帧
+ 相应生成的问答对
= VANE-Bench数据集
注意这里并没有带注释的帧和视频描述,只有原始帧和QA对
四、实验和结果
Video-LMMs
实验是评估开源/闭源模型的异常检测能力和视频理解能力。
开源的有7个模型:
- Video-LLaVA
- TimeChat
- MovieChat
- LLaMA-ViD
- VideoChat
- Video-ChatGPT
- Video-LLaMA-2
闭源的有2个模型:
- Gemini-1.5 Pro
- GPT-4o
Evaluation Protocol
Gemini 和 GPT-4o(本身不支持视频) 利用它们各自的官方API进行评估
- 接收
10个视频帧作为输
入,如果异常持续时间较长会采样多组10帧以确保全面覆盖。 附带相应的视觉问答(VQA)查询
。就是带着问题吧?
对于每个评估的模型,我们独立生成对问题的回答,不保留对话历史。
对于一些模型(如Moviechat),在回答查询时可能会输出虚构的回应(这是基于其对话模型内部训练数据或语言模型的联想能力),故将其视为错误答案。
Evaluation metric
Video-LMMs在VANE-Bench上采用标准的视觉问答(VQA)准确度
评估指标
- 每答对1个得1分
- 答错得0分
4.1 主要的评估结果
表1:Video-LMMs在VANE-Bench不同类型的视频类型上的评估结果。第一列是9种视频类型,前5种是AI生成的,后4种是现实世界的。第2~8列是开源模型,最后2列是闭源模型。
4.1.1 Video-LLMs的评估结果
4.1.1.1 在AI生成异常上
为什么一会儿是LMM,一会儿是LLM???
闭源模型比开源模型表现好,但它们在视频中异常的整体理解和检测仍然不足。
表明即使是闭源模型在识别视频中的细微异常时也困难
4.1.1.2 在现实世界异常上
开源模型在定位和识别这些异常方面遇到困难,而闭源模型在检测现实世界异常方面表现出色,如表1所示
表明闭源能够有效区分现实世界中的异常事件
,可能是因为这些模型在大量现有的现实世界和互联网规模数据上进行了训练。
4.1.2 人类的评估结果
对SORA
进行人工评估,其中的微妙异常很难在单次观看中检测到(见图1顶行)。为了确保公平性,人工评估遵循一套规则:仅向人工评估员展示视频的所有10帧一次,然后提出问题
如图5所示,虽然人类在检测这些微妙异常方面优于开源模型,但也不是很好。
表明随着视频生成技术的进步,迫切需要更有效的Video-LMMs来帮助检测那些逃避开人类视线的异常情况
图5:人类与Video-LMMs在SORA上关于VQA任务的性能对比。发现闭源模型的表现与人类相当,而开源模型则难以检测细微的异常。
4.2 额外的分析
4.2.1 预测的不一致
图6:预测的不一致。
- 左图:前两个模型预测正确,后一个预测错误
- 右图:前两个模型预测错误,后一个预测正确,仅仅是QA的描述发生了改变
- 表明Video-LMMs对QA的描述很敏感,即理解能力不好
大多数情况下,开源模型多次提出相同查询时生成不同的结果,如图6展示了一个示例。
- 相同的问题被两次提出给模型,却产生了不同的回答
- 模型在两轮中生成的答案既不同也不正
- 模型最初产生了正确的答案,然后对同一查询产生了不正确的答案,尽管表述稍有不同
无论查询如何表述,闭源模型则基本不会出现不一致的结果
4.2.2 SORA异常的性能分析
开源模型在AI生成的SORA视频上整体性能表现不好,如图2左所示:
- 所有开源模型在检测"消失"异常时的准确率均小于10%
- 在开源模型中,除了在"不自然外观"类别中Timechat表现更优,Videochat在大多数异常类型上表现更优
- 其余模型表现呈波动趋势
闭源模型在所有异常类型上表现出色,明显优于开源模型
五、结论
5.1 提出VANE-Bench
- VANE-Bench专门用于
评估Video-LMMs在VAD任务中的表现
- VANE-Bench包括
真实世界
和AI生成的视频片段
(特别是来自SORA的生成视频,具有微妙的不一致性)
5.2 评估结果
- 对9种Video-LMMs进行评估。结果表明模型之间存在显著差异,即使是强大的闭源模型也难以应对视频中微妙的不一致性
- 对SORA进行人工评估。结果表明这些微妙的异常确实很难被识别
5.3 VANE-Bench的重要性
- 推动Video-LMMs在异常检测领域的进展
- 对于开发能够识别微妙不一致性的模型尤为关键
5.4 未来展望
- 希望VANE-Bench能够引导未来的研究,进一步提升Video-LMMs在异常检测中的鲁棒性和能力