CUVA：对视频异常因果理解的综合基准（A Comprehensive Benchmark for Causation Understanding of Video Anomaly）

最新推荐文章于 2024-11-09 17:02:43 发布

温柔哥`

最新推荐文章于 2024-11-09 17:02:43 发布

阅读量1.2k

点赞数 11

分类专栏：视频异常检测大模型文章标签：视频异常检测 VAD Benchmark 大模型 CUVA 因果理解

本文链接：https://blog.csdn.net/lemonzjk/article/details/142344086

版权

视频异常检测同时被 2 个专栏收录

17 篇文章

订阅专栏

大模型

17 篇文章

订阅专栏

文章目录

笔记

笔记

北京邮电大学 - 2024 - CVPR

名词缩写

VAU - Video anomaly understanding
what - what anomaly occurred?
why - why did it happen?
how - how severe is this abnormal event?
CUVA - Causation Understanding of Video Anomaly
A-Guardian - Anomaly Guardian
NLG - Natural Language Generation

在这里插入图片描述

问题

之前的数据集主要关注的是异常检测和定位，但是对异常的原因和影响缺乏探索。

缺乏原因和影响的解释
缺乏合适的评估指标
视频长度不够

之前的评价指标仅关注单模态。

创新

三种标注：

异常类型 - 起始、结束帧以及时间描述
原因、影响 - 解释为什么发生和造成的影响
严重性 - 重要性曲线

新指标： MMEval - 更好的对齐人类偏好，同时评估视频和文本中的异常事件（多模态）

baseline: prompt-based method based on VLM

挑战：

在长视频中捕获关键线索
构建因果逻辑链

数据集（CUVA）

重要性曲线

重要性曲线是注释how的

首先标注者根据之前的任务和视频内容生成3~6个简短句子来描述视频中的各个时刻的事件
使用ChatGPT对这些句子评分
对视频帧采样（每秒1帧），使用CLIP对这些帧编码，然后对之前的句子编码，计算每个句子与帧的相似度
相似度分数与每个句子的异常分数相乘得到每一帧的value，形成初始的曲线

重要性曲线为什么能在同一框架下统一各种视频时间定位标签和任务？

在这里插入图片描述

这里结合附录中的3个例子进行解释：

片段检索任务中，重要性曲线可以通过设定阈值来筛选出视频中异常程度较高的时间段，并提取出与这些时间段对应的关键句子。这样可以实现基于文本的片段检索，将原始视频与文本内容关联起来。

亮点检测的目标是找到视频中最值得关注的片段。重要性曲线的最高点天然地表示了最突出的异常事件，通过定位这个最高点，就能轻松找到视频的亮点，简化了任务流程。

视频摘要任务是要提取视频中的关键镜头进行概括。重要性曲线中的局部最大值可以用来标识视频中的关键时刻，通过这些时间点可以提取对应的镜头，确保摘要包含最具代表性的异常片段。

数据是从b站和油管上收集的。