自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 收藏
  • 关注

原创 AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection

随着视频异常检测在智能监控领域的广泛应用,传统的仅基于视觉的检测方法在复杂环境中常面临信息不足和误报率高的问题。为解决这些限制,我们提出了一种新颖的弱监督框架,利用音视频协作实现鲁棒的视频异常检测。利用对比语言-图像预训练(CLIP)在视觉、音频和文本领域卓越的跨模态表示学习能力,我们的框架引入了两个主要创新:一种高效的音视频融合,通过轻量级参数自适应实现跨模态整合,同时保持CLIP主干网络冻结;以及。

2025-12-03 21:22:22 828

原创 Generalizing Single-Frame Supervision to Event-Level Understanding for Video Anomaly Detection

视频异常检测(VAD)旨在从视频序列中的离散事件中识别异常帧。现有的VAD方法在全监督范式中存在沉重的标注负担,在半监督范式中对细微异常不敏感,在弱监督范式中对噪声敏感。为了解决这些局限性,我们提出了一种新范式:单帧监督VAD(SF-VAD),它为每个异常视频使用一个标注的异常帧。SF-VAD确保标注效率,同时提供精确的异常参考,促进鲁棒的异常建模,并增强在复杂视觉环境中检测细微异常的能力。为了验证其有效性,我们通过实际流程手动重新标注。

2025-11-26 17:30:03 616

原创 FrameShield: Adversarially Robust Video Anomaly Detection

弱监督视频异常检测(WSVAD)已经取得了显著进展,但现有模型仍然容易受到对抗攻击的影响,限制了其可靠性。由于弱监督的固有限制——尽管需要帧级预测,但只提供视频级标签——传统的对抗防御机制,如对抗训练,效果不佳,因为视频级对抗扰动通常较弱且不足。为了解决这一限制,直接从模型生成的伪标签可以实现帧级对抗训练;然而,这些伪标签本质上是嘈杂的,显著降低了性能。因此,我们引入了一种新颖的伪异常生成方法,称为时空区域扭曲(SRD),该方法通过在正常视频的局部区域应用严重增强同时保持时间一致性来创建合成异常。

2025-11-26 10:48:25 698

原创 MoniTor: Exploiting Large Language Models with Instruction for Online Video Anomaly Detection

视频异常检测(VAD)旨在定位视频中的异常活动或行为。最近,离线VAD获得了大量研究关注,这得益于大型语言模型(LLMs)和视觉语言模型(VLMs)的进展,为更细致地理解异常提供了潜力。然而,由于实时约束和计算强度,在线VAD很少受到关注。在本文中,我们引入了一种新颖的基于内存的在线评分队列方案用于免训练VAD(MoniTor),以解决在线VAD中固有的复杂性。具体而言,MoniTor将流式输入应用于VLMs,利用预训练大规模模型的能力。

2025-11-25 20:52:53 936

原创 Weakly-supervised Audio Temporal Forgery Localization via Progressive Audio-language Co-learning Net

音频时域伪造定位(ATFL) 旨在精确找到被故意修改的部分伪造音频中的伪造区域。现有的ATFL方法依赖于使用细粒度标注来训练高效网络,而这些标注在现实场景中获取成本高昂且具有挑战性。为应对这一挑战,本文提出了一种渐进式音-语言协同学习网络(LOCO),该网络采用协同学习和自监督方式,在弱监督场景下提升定位性能。具体而言,首先设计了一个音-语言协同学习模块,通过从时序和全局视角对齐语义来捕获伪造共识特征。

2025-11-24 20:47:27 538

原创 Injecting Text Clues for Improving Anomalous Event Detection From Weakly Labeled Videos

视频异常检测(Video Anomaly Detection, VAD)旨在定位长视频中包含异常事件的片段。弱监督(Weakly Supervised, WS)设置,即在训练期间仅提供视频级标签,因其在检测性能和标注成本之间取得了令人满意的平衡而吸引了广泛关注。然而,由于缺乏片段级的密集标签,现有的WS-VAD方法仍然容易陷入由误报和不完整定位引起的检测错误。为了解决这一困境,本文提出通过一个专门的双分支框架,注入异常事件类别的文本线索来改进WS-VAD。

2025-11-19 21:47:54 725

原创 Dynamic Erasing Network With Adaptive Temporal Modeling for Weakly Supervised Video Anomaly Detec

弱监督视频异常检测旨在仅使用视频级标注数据来学习检测模型。先前的研究在进行时序建模时,忽略了异常视频中存在的异常事件的复杂性或持续时间。此外,现有方法通常只检测最异常的片段,从而可能会忽略异常事件的完整性。为解决上述局限性,我们提出了一种用于弱监督视频异常检测的动态擦除网络(DE-Net),该网络通过自适应时序建模(ATM)来学习视频特定的时序特征。具体来说,为了处理异常事件的持续时间变化,我们提出了一个ATM模块,能够为每个视频自适应地选择和聚合最合适的K个时序尺度特征。此外,我们设计了一种动态擦除。

2025-11-12 16:48:47 638

原创 Distilling Aggregated Knowledge for Weakly-Supervised Video Anomaly Detection

视频异常检测旨在开发能够识别监控视频中异常事件的自动化模型。该任务的基准设置极具挑战性,原因包括:i) 训练集规模有限,ii) 仅提供视频级标签的弱监督,以及 iii)由异常事件稀缺导致的内在类别不平衡。在本研究中,我们展示了将多个骨干网络的聚合表示知识蒸馏到单一骨干网络的学生模型中,能够达到最先进的性能。具体而言,我们开发了一种双层蒸馏方法,并结合了一种新颖的基于解耦交叉注意力的特征聚合网络。我们提出的方法DAKD(基于解耦注意力的聚合知识蒸馏)在多个基准数据集上展现出优于现有方法的性能。

2025-11-11 16:31:28 967

原创 Vision-text Enhancement Network For Weakly Supervised Video Anomaly Detection

近期的视觉-语言预训练模型ImageBind在广泛的视觉任务中取得了显著成功,在视觉或文本表示中,展示了其在不同模态间联合嵌入空间的卓越能力。如何利用这样一个强大的模型进行弱监督视频异常检测(WSVAD)是一个值得研究的问题。以往的大多数工作仅使用单一的视觉模态,并将异常检测定义为简单的视频分类任务。然而,这类解决方案忽略了数据集中的文本信息以及异常事件的定位问题。为解决这些问题,本文提出了视觉-文本增强网络(VTENet)。对于文本特征,它直接采用冻结的ImageBind模型,无需任何微调过程。

2025-11-11 10:58:54 694

原创 Audio-Visual Collaborative Learning for Weakly Supervised Video Anomaly Detection

弱监督异常检测旨在根据视频级标签(指示视频是否包含异常事件)来识别异常事件发生的时间窗口。近期的研究工作聚焦于利用多模态数据,特别是结合视觉与音频信息,以提升检测准确率。尽管一些研究探索了视频内分离技术,但主要重点仍在于将得分最高的潜在异常事件与得分最低的事件区分为正常事件。然而,在视觉差异细微的情况下,界定正常与异常事件之间的边界仍然存在挑战。我们提出的框架称为音视频协同学习(Audio-Visual Collaborative Learning, AVCL),旨在解决弱监督异常检测中的模糊性问题。

2025-11-10 21:20:22 540

原创 MSTAgent-VAD: Multi-scale video anomaly detection using time agent mechanism for segments’ tempora

由于训练过程中缺乏帧级标注,视频异常检测(VAD)需要开发无需全面监督的学习方法。以往方法主要聚焦于建模时间依赖关系与学习判别性特征,但常面临异常检测不完整、视频片段分离能力弱等问题。为解决这些问题,本文提出一种基于时间代理机制的多尺度 VAD 方法,称为,在方法结构与特征学习方面实现了显著创新:首先,针对视频中异常事件在时间尺度上的多样性,我们设计了一种多尺度时间注意力模块,用于捕获不同长度异常片段的时间特征,从而增强时间一致性,并克服传统方法在检测持续时间各异的异常时的局限性;其次,通过。

2025-11-10 16:50:40 676

原创 Multimodal Evidential Learning for Open-World Weakly-Supervised Video Anomaly Detection

TMM(ccf-b)摘要——弱监督视频异常检测的研究重点在于利用粗粒度标签来检测视频中的异常事件,该方法已成功应用于诸多现实场景。然而,现有大多数方法的一个显著局限在于,它们仅对特定场景中的特定对象有效,当面对先前未见过的异常事件时,容易发生误判或漏检。相较于传统的异常检测任务,开放世界弱监督视频异常检测(OWVAD)由于缺乏对未知异常的标签及细粒度标注,带来了更大的挑战。为解决上述问题,我们提出了一种。

2025-11-06 20:45:29 1037

原创 Delving Into Instance Modeling for Weakly Supervised Video Anomaly Detection

弱监督视频异常检测(Weakly-Supervised Video Anomaly Detection, WS-VAD)旨在从稀疏的视频级标签中识别细粒度的异常事件。近年来,由于其在灾害预警、公共安全等领域的广泛应用,该任务受到越来越多的关注。现有研究通常将WS-VAD建模为多实例学习(Multi-Instance Learning, MIL)问题。然而,这些方法忽视了实例构建过程,仅采用统一时间池化(Uniform Temporal Pooling, UTP)操作来生成训练实例,从而导致严重的异常污染。

2025-11-03 21:14:27 788

原创 PLOVAD: Prompting Vision-Language Models for Open Vocabulary Video Anomaly Detection

视频异常检测(VAD)在现实开放场景中面临着由数据稀缺引发的重大挑战,这些挑战包括标注稀疏、标注成本高以及闭集类别定义存在局限性——尤其是当场景多样性超出可用训练数据范围时,问题更为突出。尽管当前的弱监督视频异常检测方法能在一定程度上缓解这些问题,但其固有的闭集范式限制使其在开放世界场景中难以满足需求。因此,本文探索了开放词汇视频异常检测(OVVAD)这一方向,利用丰富的视觉相关语言数据对已见异常和未见异常进行检测与分类。

2025-11-03 20:21:59 624

原创 Aligning Effective Tokens with Video Anomaly in Large Language Models

理解视频中的异常事件是一项至关重要且颇具挑战性的任务,在众多应用领域中受到了广泛关注。尽管当前用于视频理解的多模态大语言模型(Multi-modal Large Language Models, MLLMs)能够对普通视频进行分析,但由于与的特点,这些模型在处理异常事件时往往力不从心——冗余信息常会导致模型输出不理想的结果。

2025-08-25 20:52:28 1186

原创 Mixture of Experts Guided by Gaussian Splatters Matters

视频异常检测(VAD)是一项具有挑战性的任务,这源于异常事件的多样性以及带标签数据的有限性。在弱监督视频异常检测(WSVAD)范式下,训练过程中仅提供视频级别的标签,而预测则需在帧级别进行。尽管最先进的模型在简单异常(如爆炸)检测上表现出色,但在处理复杂的现实世界事件(如入店行窃)时却存在困难。这种困境源于两个关键问题:(1)当前模型无法应对异常类型的多样性,它们使用一个共享模型处理所有类别,忽略了类别特异性特征;(2)弱监督信号缺乏精确的时间信息,限制了捕捉与正常事件混合在一起的细微异常模式的能力。

2025-08-22 19:56:59 770

原创 A video anomaly detection framework based on semantic consistency and multi-attribute feature comple

pp。

2025-08-13 11:41:08 432 1

原创 Dual-Detector Reoptimization for Federated Weakly Supervised Video Anomaly Detection via Adaptive Dy

联邦弱监督视频异常检测是隐私保护协同学习领域的一项重要进展,它使分布式客户端能够仅使用视频级别的标注来训练异常检测器。然而,利用粗粒度标签优化含噪声表示这一固有挑战,往往会导致显著的局部模型误差,而这种误差在联邦聚合过程中会进一步加剧,尤其是在异构场景中。为解决这些局限性,我们提出了一种新颖的双检测器框架,该框架融入了自适应动态递归映射,能显著提高局部模型的准确性以及对表示噪声的鲁棒性。

2025-08-13 10:03:40 406 1

原创 Cross-Modal Fusion and Attention Mechanism for Weakly Supervised Video Anomaly Detection

近年来,弱监督视频异常检测(WS-VAD)已成为一个新兴的研究方向,其仅利用视频级标签来识别视频中诸如暴力和裸露等异常事件。然而,这项任务面临着诸多挑战,包括处理不平衡的模态信息以及持续区分正常特征与异常特征。在本文中,我们针对这些挑战,提出了一种多模态弱监督视频异常检测框架,以精准检测暴力、裸露等异常事件。在该框架中,我们引入了一种名为跨模态融合适配器(CFA)的新型融合机制,它能动态选择并增强与视觉模态高度相关的音视频特征。此外,我们还引入了双曲洛伦兹图注意力(HLGAtt),以。

2025-07-08 21:34:33 877

原创 Learning Event Completeness for Weakly Supervised Video Anomaly Detection

弱监督视频异常检测(WS-VAD)的任务是仅利用视频级别的标注,在未剪辑的视频中精准定位包含异常事件的时间区间。然而,由于缺乏密集的帧级别标注,这一任务面临着重大挑战,常常导致现有WS-VAD方法出现定位不完整的问题。为解决这一问题,我们提出了一种新颖的LEC-VAD(弱监督视频异常检测中的事件完整性学习方法),它采用双结构设计,用于编码视觉与语言之间的类别感知语义和类别无关语义。在LEC-VAD中,我们设计了语义规则,利用异常感知的高斯混合模型来学习精确的事件边界,从而得到更完整的事件实例。

2025-07-04 17:19:11 962 2

原创 Multimodal Distillation for Egocentric Action Recognition

第一视角视频理解的核心在于对手-物体交互进行建模。以RGB帧作为输入的标准模型(如卷积神经网络或视觉Transformer)表现良好,然而,通过引入能提供互补线索的额外输入模态(如目标检测结果、光流、音频等),这些模型的性能还能得到进一步提升。但另一方面,模态特定模块所增加的复杂性,使得这些模型在实际部署中并不可行。本研究的目标是保留这种多模态方法的性能,同时在推理时仅使用RGB帧作为输入。

2025-07-03 16:31:45 706

原创 Audio-Visual Contrastive and Consistency Learning for Semi-Supervised Action Recognition

半监督视频学习是一种日益流行的方法,它通过利用大规模未标记视频和少量标签来改进视频理解任务。最近的研究表明,多模态对比学习和一致性正则化是为半监督动作识别生成高质量伪标签的有效技术。然而,现有的伪标签方法完全基于模型的类别预测,并且由于错误预测的累积而可能遭受确认偏差。为了解决这个问题,我们提出利用视听特征相关性来获得高质量的伪标签,而不是依赖模型的置信度。为了实现这一目标,我们引入了用于半监督动作识别的视听对比与一致性学习(AvCLR)。

2025-06-30 11:20:08 1010

原创 Local Patterns Generalize Better for Novel Anomalies

视频异常检测(VAD)旨在识别训练中未见过的新动作或事件。现有的主流VAD技术通常关注包含冗余细节的全局模式,难以泛化到未见过的样本。在本文中,我们提出了一个框架,该框架能够识别可泛化到新样本的局部模式,并对局部模式的动态进行建模。提取空间局部模式的能力通过包含图像-文本对齐和跨模态注意力的两阶段过程实现。我们通过聚焦语义相关的组件来构建可泛化的表示,这些组件可以重新组合以捕捉新异常的本质,减少不必要的视觉数据差异。为了用时间线索增强局部模式,我们提出了一个状态机模块(SMM),

2025-06-05 19:18:58 1100

原创 Video Anomaly Detection via self-supervised and spatio-temporal proxy tasks learning

由于模型仅基于正常时空特征训练,预期正常事件在 \(M_s\) 第一行和 \(M_t\) 最后一行的数值会高于异常事件。因此,

2025-06-04 16:04:18 1035

原创 EOGT: Video Anomaly Detection with Enhanced Object Information and Global Temporal Dependency

视频异常检测(VAD)旨在识别视频中偏离典型模式的事件或场景。现有方法主要通过重建或预测视频帧来检测异常,近年来性能有所提升。然而,这些方法高度依赖局部时空信息,面临对象特征建模不足的挑战。为解决上述问题,本文提出了一种具有增强对象信息和全局时间依赖的视频异常检测框架(EOGT),其主要创新点如下: (1)提出局部对象异常流(LOAS),用于在对象级别提取局部多模态时空异常特征。LOAS集成两个模块:基于多模态条件的扩散对象重建网络(DORN)利用对象RGB信息检测异常;

2025-05-27 21:12:37 737

原创 STEAD: Spatio-Temporal Efficient Anomaly Detection for Time and Compute Sensitive Applications

本文提出了一种适用于自动驾驶等时间和计算敏感型自动化系统的异常检测新方法,具有无与伦比的效率。随着自动驾驶等系统日益普及,确保其安全性变得前所未有的重要。因此,本文重点研究如何快速有效地检测上述系统中的各种异常,旨在使其更安全、更高效。许多检测系统在空间上下文中已取得巨大成功,但在时间上下文方面仍有显著改进空间。尽管关于该任务的研究已较为充分,但针对模型效率及其在需要实时推理场景(如异常需在进入视野瞬间被检测的自动驾驶场景)中的应用能力的研究却少之又少。

2025-05-15 20:01:38 861

原创 Inter-clip Feature Similarity based Weakly Supervised Video Anomaly Detection via Multi-scale Tempor

弱监督视频异常检测(WSVAD)的主要范式是将其视为一个多示例学习(MIL)问题,训练时仅能使用视频级别的标签。由于异常情况的罕见性和模糊性,选择潜在的异常训练样本是WSVAD面临的主要挑战。考虑到异常事件的时间相关性和时长变化,如何整合时间信息也是WSVAD领域一个有争议的话题。为了解决上述问题,我们提出了一种名为基于跨剪辑特征相似性的视频异常检测(IFS-VAD)的新方法。在提出的IFS-VAD中,为了同时利用全局和局部时间关系,我们采用了多尺度时间多层感知器(MT-MLP)。

2025-05-08 16:54:38 944

原创 VADiffusion: Compressed Domain Information Guided Conditional Diffusion for Video Anomaly Detection

安全监控的需求呈指数级增长,这使得视频异常检测变得尤为关键。现有的基于图像域的异常检测算法存在诸多缺陷,面临实施挑战,包括长距离传输时的延迟需要完全解码以及网络推理结构复杂等问题。此外,当前使用生成模型的帧预测方法存在预测质量低和模式崩溃的问题。为应对这些挑战,我们提出了VADiffusion,这是一种压缩域信息引导的条件扩散框架。VADiffusion采用双分支结构,将运动向量重建和I帧预测相结合,有效解决了重建方法在识别突发异常时的局限性以及帧预测方法在检测持续性异常时的困难。

2025-05-06 16:26:24 957

原创 UCF-Crime-DVS: A Novel Event-Based Dataset for Video Anomaly Detection with Spiking Neural Networks

视频异常检测在智能监控系统中发挥着重要作用。为了提高模型的异常识别能力,以往的研究通常涉及RGB、光流和文本特征。最近,动态视觉传感器(DVS)作为一项有前景的技术崭露头角,它将视觉信息捕捉为离散事件,具有极高的动态范围和时间分辨率。与传统相机相比,它减少了数据冗余,增强了对移动物体的捕捉能力。为了将这种丰富的动态信息引入监控领域,我们创建了首个DVS视频异常检测基准数据集,即UCF-Crime-DVS。为了充分利用这种新的数据模态,我们基于脉冲神经网络(SNNs)设计了一种多尺度脉冲融合网络(MSF)。

2025-04-24 16:17:30 892

原创 ALIGNING FIRST, THEN FUSING: A NOVEL WEAKLY SUPERVISED MULTIMODAL VIOLENCE DETECTION METHOD

弱监督暴力检测是指仅使用视频级标签训练模型来识别视频中暴力片段的技术。在这些方法中,融合了音频和光流等模态的多模态暴力检测具有巨大潜力。该领域现有的方法主要侧重于设计多模态融合模型来解决模态差异问题。相比之下,我们采用了一种不同的方法——利用暴力事件表示中各模态之间的固有差异,提出一种新颖的多模态语义特征对齐方法。这种方法将局部的、短暂的且信息较少的模态(如音频和光流)的语义特征稀疏地映射到信息更丰富的RGB语义特征空间中。

2025-04-23 18:51:34 916

原创 Towards Multi-Domain Learning for Generalizable Video Anomaly Detection

现有的大多数视频异常检测(VAD)研究都是在单域学习框架下进行的,即训练和评估都基于单个数据集。然而,不同的VAD数据集对异常事件的定义标准存在差异,这使得单域模型在其他领域的应用面临问题。在本文中,我们提出了一项名为视频异常检测多域学习(MDVAD)的新任务,旨在通过使用多个数据集训练通用模型,探索现实世界中的各种异常事件。MDVAD需要同时在来自多个领域的数据集上进行训练,我们通过实验观察到,域间的异常冲突会阻碍学习过程和模型的泛化能力。

2025-04-22 20:29:41 1079

原创 BatchNorm-based Weakly Supervised Video Anomaly Detection

在弱监督视频异常检测(WVAD)中,仅能获取指示异常事件是否存在的视频级标签,其主要挑战源于异常发生时间注释的固有模糊性。受异常事件的时间特征往往呈现离群值特征这一统计观点的启发,我们提出了一种新颖的方法——BN-WVAD,即将BatchNorm融入到WVAD中。在提出的BN-WVAD方法中,我们利用BatchNorm的特征与均值向量差异(DFM)作为可靠的异常准则,以识别异常视频中的潜在异常片段。

2025-04-22 14:53:41 657

原创 Dual Conditioned Motion Diffusion for Pose-Based Video Anomaly Detection

视频异常检测(VAD)在计算机视觉研究中至关重要。现有的VAD方法主要基于重建或预测框架。前者擅长检测不规则的模式或结构,而后者则能够发现异常的偏差或趋势。我们致力于基于姿态的视频异常检测,并引入了一种名为双条件运动扩散(DCMD)的全新框架,该框架兼具两种方法的优势。DCMD将条件运动和条件嵌入相结合,分别全面利用观测到的运动的姿态特征和潜在语义。在反向扩散过程中,我们提出了一种运动变换器,用于从人体运动频谱空间的多层特征中捕捉潜在的相关性。为了增强正常和异常实例之间的可区分性,我们设计了一种新的。

2025-04-21 10:20:06 778

原创 Holmes-VAD: Towards Unbiased and Explainable Video Anomaly Detection via Multi-modal LLM

趋向于开放式的视频异常检测(VAD),现有方法在面对具有挑战性或未见过的事件时,往往表现出有偏见的检测,并且缺乏可解释性。为了解决这些缺点,我们提出了Holmes-VAD,这是一种新颖的框架,通过精确的时间监督和丰富的多模态指令来实现准确的异常定位和全面的解释。首 先,为了构建无偏见且可解释的VAD系统,我们构建了第一个大规模多模态VAD指令调优基准,即VAD-Instruct50k。该数据集是使用精心设计的半自动标注范式创建的。对收集到的未剪辑视频应用高效的单帧标注,

2025-04-17 20:15:04 1156

原创 Just Dance with π! A Poly-modal Inductor for Weakly-supervised Video Anomaly Detection

视频异常检测(VAD)的弱监督方法传统上仅基于RGB时空特征,这在现实场景中限制了其可靠性。因为RGB特征在区分像商店行窃和视觉上相似的事件类别时,辨识度不够。所以,为实现强大且能处理复杂现实场景的VAD,用额外模态增强RGB时空特征至关重要。基于此,我们引入了用于VAD的多模态诱导框架:“PI - VAD”(或π - VAD),这是一种新颖的方法,通过五种额外模态增强RGB表示。具体而言,这些模态包括对。

2025-04-14 10:37:12 771 1

原创 Multi-scale Bottleneck Transformer for Weakly Supervised Multimodal Violence Detection

弱监督多模态暴力检测旨在借助诸如RGB、光流和音频等多种模态来学习一个暴力检测模型,而此时仅有视频级别的标注可用。在追求有效的多模态暴力检测(MVD)过程中,信息冗余、模态不平衡以及模态异步被认为是三大关键挑战。在这项工作中,我们提出了一种新的弱监督多模态暴力检测方法,明确地应对了这些挑战。具体而言,我们引入了一个基于多尺度瓶颈变换器(MSBT)的融合模块,该模块使用数量逐渐减少的瓶颈令牌来逐步压缩信息,并融合每一对模态,同时利用基于瓶颈令牌的加权方案来突出更重要的融合特征。

2025-04-08 16:12:54 992

原创 Anomize: Better Open Vocabulary Video Anomaly Detection

开放词汇视频异常检测(OVVAD)旨在检测和分类基础异常与新异常。然而,现有方法在处理新异常时面临两个特定挑战。第一个挑战是检测模糊性,即模型难以给不熟悉的异常准确分配异常分数。第二个挑战是分类混淆,新出现的异常常常被误分类为与训练集中视觉相似的基础实例。为应对这些挑战,我们从多个来源探索补充信息,通过利用多层次的视觉数据以及匹配的文本信息来减轻检测模糊性。此外,我们提出结合标签关系来指导新标签的编码,从而改善新视频与其相应标签之间的对齐度,这有助于减少分类混淆。

2025-04-01 15:50:44 978

原创 Video Anomaly Detection with Motion and Appearance Guided Patch Diffusion Model

在一类视频异常检测的最新研究中,人们尝试利用扩散模型,并将该任务视为一个生成问题,即训练扩散模型仅恢复正常模式,从而将异常模式作为离群值报告出来。然而,现有的尝试忽略了异常的多种形成方式,并且在特征层面预测正常样本,却忽视了监控视频中的异常物体通常相对较小这一事实。为了解决这个问题,我们提出了一种新颖的基于补丁的扩散模型,该模型专门用于捕捉细粒度的局部信息。我们进一步观察到,视频中的异常表现为外观和运动两方面的偏差。因此,我们认为,一个全面的解决方案必须同时考虑这两个方面,以实现准确的帧预测。

2025-03-25 19:19:56 935

原创 Holmes-VAU: Towards Long-term Video Anomaly Understanding at Any Granularity

我们如何让模型理解在不同时间尺度和情境下发生的视频异常情况呢?传统的视频异常理解(VAU)方法主要侧重于帧级别的异常预测,往往无法解释复杂多样的现实世界中的异常情况。最近的多模态方法利用了视觉和文本数据,但缺乏能够捕捉短期和长期异常的分层注释。为了应对这一挑战,我们引入了HIVAU-70k,这是一个大规模的基准数据集,用于任意粒度的分层视频异常理解。我们开发了一种半自动化的注释引擎,通过将手动视频分割与使用大语言模型(LLMs)进行递归自由文本注释相结合,有效地扩展了高质量注释的规模。

2025-03-17 16:30:15 988

原创 VERA: Explainable Video Anomaly Detection via Verbalized Learning of Vision-Language Models

利用VLMs同时检测异常,并为决策提供易于理解的解释。这一领域的现有研究通常认为,VAD所需的复杂推理超出了预训练VLMs的能力范围。因此,这些方法要么在推理过程中引入专门的推理模块,要么通过额外训练依赖指令调整数据集,以使VLMs适用于VAD。然而,这些策略往往会带来高昂的计算成本或数据标注负担。为应对可解释VAD中的这些挑战,我们引入了一种名为VERA的语言化学习框架该框架能让VLMs在不修改模型参数的情况下执行VAD任务。

2025-03-14 14:56:06 1362

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除