- 博客(27)
- 收藏
- 关注
原创 STEAD: Spatio-Temporal Efficient Anomaly Detection for Time and Compute Sensitive Applications
本文提出了一种适用于自动驾驶等时间和计算敏感型自动化系统的异常检测新方法,具有无与伦比的效率。随着自动驾驶等系统日益普及,确保其安全性变得前所未有的重要。因此,本文重点研究如何快速有效地检测上述系统中的各种异常,旨在使其更安全、更高效。许多检测系统在空间上下文中已取得巨大成功,但在时间上下文方面仍有显著改进空间。尽管关于该任务的研究已较为充分,但针对模型效率及其在需要实时推理场景(如异常需在进入视野瞬间被检测的自动驾驶场景)中的应用能力的研究却少之又少。
2025-05-15 20:01:38
708
原创 Inter-clip Feature Similarity based Weakly Supervised Video Anomaly Detection via Multi-scale Tempor
弱监督视频异常检测(WSVAD)的主要范式是将其视为一个多示例学习(MIL)问题,训练时仅能使用视频级别的标签。由于异常情况的罕见性和模糊性,选择潜在的异常训练样本是WSVAD面临的主要挑战。考虑到异常事件的时间相关性和时长变化,如何整合时间信息也是WSVAD领域一个有争议的话题。为了解决上述问题,我们提出了一种名为基于跨剪辑特征相似性的视频异常检测(IFS-VAD)的新方法。在提出的IFS-VAD中,为了同时利用全局和局部时间关系,我们采用了多尺度时间多层感知器(MT-MLP)。
2025-05-08 16:54:38
827
原创 VADiffusion: Compressed Domain Information Guided Conditional Diffusion for Video Anomaly Detection
安全监控的需求呈指数级增长,这使得视频异常检测变得尤为关键。现有的基于图像域的异常检测算法存在诸多缺陷,面临实施挑战,包括长距离传输时的延迟需要完全解码以及网络推理结构复杂等问题。此外,当前使用生成模型的帧预测方法存在预测质量低和模式崩溃的问题。为应对这些挑战,我们提出了VADiffusion,这是一种压缩域信息引导的条件扩散框架。VADiffusion采用双分支结构,将运动向量重建和I帧预测相结合,有效解决了重建方法在识别突发异常时的局限性以及帧预测方法在检测持续性异常时的困难。
2025-05-06 16:26:24
798
原创 UCF-Crime-DVS: A Novel Event-Based Dataset for Video Anomaly Detection with Spiking Neural Networks
视频异常检测在智能监控系统中发挥着重要作用。为了提高模型的异常识别能力,以往的研究通常涉及RGB、光流和文本特征。最近,动态视觉传感器(DVS)作为一项有前景的技术崭露头角,它将视觉信息捕捉为离散事件,具有极高的动态范围和时间分辨率。与传统相机相比,它减少了数据冗余,增强了对移动物体的捕捉能力。为了将这种丰富的动态信息引入监控领域,我们创建了首个DVS视频异常检测基准数据集,即UCF-Crime-DVS。为了充分利用这种新的数据模态,我们基于脉冲神经网络(SNNs)设计了一种多尺度脉冲融合网络(MSF)。
2025-04-24 16:17:30
640
原创 ALIGNING FIRST, THEN FUSING: A NOVEL WEAKLY SUPERVISED MULTIMODAL VIOLENCE DETECTION METHOD
弱监督暴力检测是指仅使用视频级标签训练模型来识别视频中暴力片段的技术。在这些方法中,融合了音频和光流等模态的多模态暴力检测具有巨大潜力。该领域现有的方法主要侧重于设计多模态融合模型来解决模态差异问题。相比之下,我们采用了一种不同的方法——利用暴力事件表示中各模态之间的固有差异,提出一种新颖的多模态语义特征对齐方法。这种方法将局部的、短暂的且信息较少的模态(如音频和光流)的语义特征稀疏地映射到信息更丰富的RGB语义特征空间中。
2025-04-23 18:51:34
722
原创 Towards Multi-Domain Learning for Generalizable Video Anomaly Detection
现有的大多数视频异常检测(VAD)研究都是在单域学习框架下进行的,即训练和评估都基于单个数据集。然而,不同的VAD数据集对异常事件的定义标准存在差异,这使得单域模型在其他领域的应用面临问题。在本文中,我们提出了一项名为视频异常检测多域学习(MDVAD)的新任务,旨在通过使用多个数据集训练通用模型,探索现实世界中的各种异常事件。MDVAD需要同时在来自多个领域的数据集上进行训练,我们通过实验观察到,域间的异常冲突会阻碍学习过程和模型的泛化能力。
2025-04-22 20:29:41
966
原创 Dual Conditioned Motion Diffusion for Pose-Based Video Anomaly Detection
视频异常检测(VAD)在计算机视觉研究中至关重要。现有的VAD方法主要基于重建或预测框架。前者擅长检测不规则的模式或结构,而后者则能够发现异常的偏差或趋势。我们致力于基于姿态的视频异常检测,并引入了一种名为双条件运动扩散(DCMD)的全新框架,该框架兼具两种方法的优势。DCMD将条件运动和条件嵌入相结合,分别全面利用观测到的运动的姿态特征和潜在语义。在反向扩散过程中,我们提出了一种运动变换器,用于从人体运动频谱空间的多层特征中捕捉潜在的相关性。为了增强正常和异常实例之间的可区分性,我们设计了一种新的。
2025-04-21 10:20:06
623
原创 Holmes-VAD: Towards Unbiased and Explainable Video Anomaly Detection via Multi-modal LLM
趋向于开放式的视频异常检测(VAD),现有方法在面对具有挑战性或未见过的事件时,往往表现出有偏见的检测,并且缺乏可解释性。为了解决这些缺点,我们提出了Holmes-VAD,这是一种新颖的框架,通过精确的时间监督和丰富的多模态指令来实现准确的异常定位和全面的解释。首 先,为了构建无偏见且可解释的VAD系统,我们构建了第一个大规模多模态VAD指令调优基准,即VAD-Instruct50k。该数据集是使用精心设计的半自动标注范式创建的。对收集到的未剪辑视频应用高效的单帧标注,
2025-04-17 20:15:04
984
原创 Multi-scale Bottleneck Transformer for Weakly Supervised Multimodal Violence Detection
弱监督多模态暴力检测旨在借助诸如RGB、光流和音频等多种模态来学习一个暴力检测模型,而此时仅有视频级别的标注可用。在追求有效的多模态暴力检测(MVD)过程中,信息冗余、模态不平衡以及模态异步被认为是三大关键挑战。在这项工作中,我们提出了一种新的弱监督多模态暴力检测方法,明确地应对了这些挑战。具体而言,我们引入了一个基于多尺度瓶颈变换器(MSBT)的融合模块,该模块使用数量逐渐减少的瓶颈令牌来逐步压缩信息,并融合每一对模态,同时利用基于瓶颈令牌的加权方案来突出更重要的融合特征。
2025-04-08 16:12:54
903
原创 Anomize: Better Open Vocabulary Video Anomaly Detection
开放词汇视频异常检测(OVVAD)旨在检测和分类基础异常与新异常。然而,现有方法在处理新异常时面临两个特定挑战。第一个挑战是检测模糊性,即模型难以给不熟悉的异常准确分配异常分数。第二个挑战是分类混淆,新出现的异常常常被误分类为与训练集中视觉相似的基础实例。为应对这些挑战,我们从多个来源探索补充信息,通过利用多层次的视觉数据以及匹配的文本信息来减轻检测模糊性。此外,我们提出结合标签关系来指导新标签的编码,从而改善新视频与其相应标签之间的对齐度,这有助于减少分类混淆。
2025-04-01 15:50:44
811
原创 Video Anomaly Detection with Motion and Appearance Guided Patch Diffusion Model
在一类视频异常检测的最新研究中,人们尝试利用扩散模型,并将该任务视为一个生成问题,即训练扩散模型仅恢复正常模式,从而将异常模式作为离群值报告出来。然而,现有的尝试忽略了异常的多种形成方式,并且在特征层面预测正常样本,却忽视了监控视频中的异常物体通常相对较小这一事实。为了解决这个问题,我们提出了一种新颖的基于补丁的扩散模型,该模型专门用于捕捉细粒度的局部信息。我们进一步观察到,视频中的异常表现为外观和运动两方面的偏差。因此,我们认为,一个全面的解决方案必须同时考虑这两个方面,以实现准确的帧预测。
2025-03-25 19:19:56
710
原创 Holmes-VAU: Towards Long-term Video Anomaly Understanding at Any Granularity
我们如何让模型理解在不同时间尺度和情境下发生的视频异常情况呢?传统的视频异常理解(VAU)方法主要侧重于帧级别的异常预测,往往无法解释复杂多样的现实世界中的异常情况。最近的多模态方法利用了视觉和文本数据,但缺乏能够捕捉短期和长期异常的分层注释。为了应对这一挑战,我们引入了HIVAU-70k,这是一个大规模的基准数据集,用于任意粒度的分层视频异常理解。我们开发了一种半自动化的注释引擎,通过将手动视频分割与使用大语言模型(LLMs)进行递归自由文本注释相结合,有效地扩展了高质量注释的规模。
2025-03-17 16:30:15
608
原创 VERA: Explainable Video Anomaly Detection via Verbalized Learning of Vision-Language Models
利用VLMs同时检测异常,并为决策提供易于理解的解释。这一领域的现有研究通常认为,VAD所需的复杂推理超出了预训练VLMs的能力范围。因此,这些方法要么在推理过程中引入专门的推理模块,要么通过额外训练依赖指令调整数据集,以使VLMs适用于VAD。然而,这些策略往往会带来高昂的计算成本或数据标注负担。为应对可解释VAD中的这些挑战,我们引入了一种名为VERA的语言化学习框架该框架能让VLMs在不修改模型参数的情况下执行VAD任务。
2025-03-14 14:56:06
1064
原创 Cross-Domain Learning for Video Anomaly Detection with Limited Supervision
视频异常检测(VAD)能够自动识别异常事件,例如监控视频中的安全威胁。在实际应用中,VAD模型必须在跨域环境中有效运行,识别那些在训练数据中未得到充分体现的罕见异常和场景。然而,现有的跨域VAD方法主要侧重于无监督学习,其性能未能达到实际应用的预期。由于获取源域的弱监督(即视频级标签)成本效益较高,我们推测将其与外部未标记数据相结合,在提升跨域性能方面具有显著潜力。为此,我们提出了一种全新的用于VAD跨域学习(CDL)的弱监督框架。
2025-02-25 21:51:36
670
原创 Distilling Privileged Knowledge for Anomalous Event Detection From Weakly Labeled Videos
弱监督视频异常检测(WS-VAD)旨在仅凭借视频级别的二元标签,识别长未修剪视频中涉及异常事件的片段。现有WS-VAD方法中的一种典型范式是采用多种模态作为输入,例如RGB、光流和音频,因为它们可以提供足够的判别线索,能够适应多样、复杂的现实场景。然而,这种流程高度依赖多种模态的可用性,并且在处理长序列时计算成本高昂且存储需求大,这限制了其在某些应用中的使用。
2025-02-17 19:38:10
987
原创 Weakly Supervised Video Anomaly Detection via Self-Guided Temporal Discriminative Transformer
弱监督视频异常检测通常被表述为一个多示例学习(MIL)问题,在基于MIL的视频级分类监督下,异常检测器学习生成帧级异常分数。然而,先前的大多数工作存在两个缺点:1)它们缺乏对视频片段之间的时间关系进行建模的能力;2)它们无法提取足够的判别性特征来区分正常和异常的片段。在本文中,我们开发了一种弱监督时间判别(WSTD)范式,旨在利用时间关系和特征判别来缓解上述缺点。为此,我们提出了一个变压器式的时间特征聚合器(TTFA)和一个自引导判别特征编码器(SDFE)。
2025-01-22 11:32:28
593
原创 Scene-Dependent Prediction in Latent Space for Video Anomaly Detection and Anticipation
视频异常检测(VAD)在智能监控中起着至关重要的作用。然而,一种名为场景依赖异常的重要异常类型却被忽视了。此外,视频异常预测(VAA)任务也值得关注。为了填补这些空白,我们构建了一个名为西北工业大学校园(NWPU Campus)的综合数据集,它是最大的半监督 VAD 数据集,也是首个用于场景依赖 VAD 和 VAA 的数据集。同时,我们引入了一种新颖的用于场景依赖 VAD 和 VAA 的前向 - 后向框架,其中前向网络单独解决 VAD 问题,并与后向网络共同解决 VAA 问题。
2025-01-09 22:01:39
702
原创 A multi-memory-augmented network with a curvy metric method for video anomaly detection
视频中的异常检测任务主要是指在推理阶段识别出不符合所学正常模式的异常事件。然而,大多数现有方法在学习和推理阶段使用的欧几里得度量无法合理地测量不同高维数据之间的差异,因为不同高维数据之间的欧几里得距离会随着维度的增加而逐渐趋于相同。在本文中,我们提出了一种带有新的曲线度量方法的多记忆增强双流网络,以消除欧几里得度量的这一缺点。据我们所知,这是首次使用这种新颖的曲线度量来检测异常事件的工作。大量对比实验表明,由于其独立性和迁移实验结果,这种新颖的曲线度量可以插入任何基于欧几里得度量的神经网络中。
2025-01-03 21:47:29
972
原创 LOOK, LISTEN AND PAY MORE ATTENTION: FUSING MULTI-MODAL INFORMATION FOR VIDEO VIOLENCE DETECTION
暴力检测是计算机视觉领域中一个重要且具有挑战性的问题。现有的大多数工作都集中在单模态数据分析上,而在多模态可用的情况下,这种方法并不有效。因此,我们提出了一种用于暴力检测的两阶段多模态信息融合方法:1)第一阶段采用多示例学习策略,将视频级硬标签细化为剪辑级软标签;2)下一阶段使用多模态信息融合注意力模块来实现融合,并使用第一阶段生成的软标签进行监督学习。在XD-Violence数据集上的大量实验证据表明,我们的方法优于现有方法。
2024-12-30 17:07:55
808
原创 Video Anomaly Detection via Spatio-Temporal Pseudo-Anomaly Generation : A Unified Approach
视频异常检测(VAD)是一项开放集识别任务,通常被表述为单类分类(OCC)问题,其中训练数据由包含正常实例的视频组成,而测试数据则包含正常和异常实例。近期的研究工作致力于仅利用正常数据创建伪异常(PAs),并对现实世界中的异常情况在物体异常性和运动速度方面做出强假设,以便在训练期间将关于异常的先验信息注入基于自动编码器(AE)的重建模型中。这项工作提出了一种新颖的方法来生成通用的时空 PAs,即通过使用预训练的潜在扩散模型对图像的掩码区域进行修复,并进一步使用 mixup 扰动光流以模拟数据中的时空扭曲。
2024-12-16 22:08:27
910
原创 Context Recovery and Knowledge Retrieval: A Novel Two-Stream Framework for Video Anomaly Detection
视频异常检测旨在找出视频中不符合预期行为的事件。主流方法主要通过片段重建或未来帧预测误差来检测异常。然而,该误差高度依赖于当前片段的局部上下文,且缺乏对正常性的理解。为了解决这个问题,我们提出不仅要根据局部上下文,还要依据测试事件与训练数据中关于正常性的知识之间的一致性来检测异常事件。具体而言,我们提出了一种基于上下文恢复和知识检索的新型双流框架,其中两个流可以相互补充。对于上下文恢复流,我们提出了一种时空U-Net,它可以充分利用运动信息来预测未来帧。此外,我们提出了一种最大局部误差机制。
2024-12-16 16:03:46
757
原创 A Hybrid Video Anomaly Detection Framework via Memory-Augmented Flow Reconstruction and Flow-Guided
在本文中,我们提出了HF2 - VAD,这是一种将流重建和帧预测无缝集成的混合框架,用于处理视频异常检测。首先,我们设计了ML - MemAE - SC(带有跳跃连接的自动编码器中的多级记忆模块)网络,用于记忆光流重建的正常模式,以便通过较大的流重建误差灵敏地识别异常事件。更重要的是,基于重建的流,我们使用条件变分自动编码器(CVAE),它捕捉视频帧和光流之间的高度相关性,根据之前的几帧预测下一帧。通过CVAE,流重建的质量本质上影响帧预测的质量。
2024-12-12 16:19:32
829
原创 MULDE: Multiscale Log-Density Estimation via Denoising Score Matching for Video Anomaly Detection
我们提出了一种新颖的视频异常检测方法:将从视频中提取的特征向量视为具有固定分布的随机变量的实现,并使用神经网络对该分布进行建模。这使我们能够估计测试视频的似然性,并通过对似然估计进行阈值处理来检测视频异常。我们使用一种改进的去噪得分匹配方法来训练我们的视频异常检测器,该方法向训练数据中注入噪声以促进对其分布的建模。为了消除超参数选择,我们对不同噪声水平下的含噪视频特征分布进行建模,并引入一个正则化项,使不同噪声水平的模型趋于对齐。在测试时,我们使用高斯混合模型将多个噪声尺度下的异常指示进行组合。
2024-12-11 22:06:52
926
原创 Generating Anomalies for Video Anomaly Detection with Prompt-based Feature Mapping
监控视频中的异常检测是一项具有挑战性的计算机视觉任务,在训练期间仅能获取正常视频。近期工作发布了首个虚拟异常检测数据集以辅助现实世界中的检测。然而,存在异常差距,因为虚拟数据集中的异常是有界的,而在现实世界中是无界的,这降低了虚拟数据集的泛化能力。虚拟与现实场景之间还存在场景差距,包括场景特定异常(在一个场景中异常但在另一个场景中正常的事件)以及场景特定属性,例如监控摄像机的视角。在本文中,我们旨在通过提出基于提示的特征映射框架(PFMF)来解决异常差距和场景差距问题。
2024-12-11 19:44:30
655
原创 Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw Puzzles
视频异常检测(VAD)是计算机视觉中的一个重要课题。受近期自监督学习进展的推动,本文通过解决一个直观但具有挑战性的前置任务——时空拼图问题来处理 VAD,该任务被构建为一个多标签细粒度分类问题。我们的方法相较于现有工作具有多个优势:1)时空拼图在空间和时间维度上解耦,分别负责捕捉极具判别性的外观和运动特征;2)使用全排列来提供大量涵盖不同难度级别的拼图,使网络能够区分正常与异常事件之间的细微时空差异;3)以端到端的方式处理前置任务,无需依赖任何预训练模型。
2024-12-10 16:33:33
904
原创 CLIP-TSA: CLIP-ASSISTED TEMPORAL SELF-ATTENTION FOR WEAKLY-SUPERVISED VIDEO ANOMALY DETECTION
视频异常检测( Video Anomaly Detection,VAD )是视频监控中一个具有挑战性的问题,通常被描述为弱监督方式下的多示例学习问题,其中异常帧需要定位在未修剪的视频中。在本文中,我们首先提议利用来自 CLIP 的 ViT 编码的视觉特征,与该领域中传统的 C3D 或 I3D 特征形成对比,以便在新技术中有效地提取具有判别性的表示。然后,我们通过利用我们提出的时间自注意力(TSA)来对时间依赖性进行建模并提名感兴趣的片段。消融研究证实了 TSA 和 ViT 特征的有效性。
2024-12-09 18:48:59
866
原创 c++优先队列priority_queue结构体自定义函数排序
定义其对应优先队列,这里有点类似与sort。其中,node为结构体,vector<node>大概试表示范围(我不确定),cmp为比较的函数。值得注意的是cmp不能直接使用bool定义,而是要写成下列形式,一定要用operator。如果你想要大的排前,那你需要写"<=",这里和sort有所区别。菜鸡一个,如有讲错,欢迎指出。
2024-03-27 10:39:07
482
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人