L1783516140-CSDN博客

原创【视频动作定位】Weakly-supervised Temporal Action Localization by Uncertainty Modeling

弱监督时间动作定位的目的是学习仅用视频级别标签来检测动作类别的时间间隔。为此，将动作类别的帧与背景帧（即不属于任何动作类的帧）分开是至关重要的。在本文中，我们提出了一个关于背景帧的新视角，其中它们被建模为分布外样本，因为它们的不一致性。然后，可以通过估计每帧偏离分布的概率来检测背景帧，称为不确定性，但如果没有帧级标签，直接学习不确定性是不可行的。为了实现弱监督环境下的不确定性学习，我们利用了多实例学习公式。此外，我们进一步引入背景熵损失，通过鼓励其分布(动作)概率均匀分布在所有动作类上来更好地区分背景帧。

2024-07-14 21:29:52 628

原创【视频定位】Local-Global Multi-Modal Distillation for Weakly-Supervised Temporal Video Grounding

本文首次利用多模态视频进行弱监督的时序视频定位。由于标记视频时刻是耗费劳动和主观性的，近年来，弱监督的方法越来越受到关注。然而，由于监督不足，这些方法本身可能会损害性能。因此，为了应对这一挑战，我们首次将注意力放到利用从多模态视频中提取的互补信息(例如，RGB帧，光流)，在弱监督环境中自然地引入更丰富的监督。我们的动机是通过整合视频的不同模态，从协同监督中学习模型，从而获得更好的泛化能力。然而，处理多个模态也将不可避免地引入额外的计算开销，并且在一个未知的特定模态中可能变得不适用。

2024-07-14 16:09:53 732

原创【视频异常检测】Open-Vocabulary Video Anomaly Detection

当前具有弱监督的视频异常检测(VAD)方法固有地局限于封闭集设置，并且在开放世界应用中可能会遇到困难，因为在训练期间测试数据中可能存在不可见的异常类别。最近的一些研究试图解决一个更现实的设置，开放式VAD，其目的是在看到异常和正常视频的情况下检测未见的异常。然而，这种设置侧重于预测帧异常分数，没有识别特定异常类别的能力，尽管这种能力对于构建更智能的视频监控系统至关重要。本文进一步探讨了开放词汇表视频异常检测(OVVAD)，其中我们的目标是利用预训练的大型模型来检测并分类可见和未见的异常。

2024-07-11 17:05:28 1164

原创【视频异常检索】Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and Model

视频异常检测(VAD)由于其潜在的应用前景而受到越来越多的关注，目前其主要任务集中在在线异常检测上，可以大致理解为二元或多事件分类。然而，这种在复杂异常事件和单一标签之间建立关系的设置，例如“故意破坏”，是肤浅的，因为单一标签不足以表征异常事件。在现实中，用户倾向于搜索一个特定的视频，而不是一系列近似的视频。因此，对异常事件进行详细描述检索具有积极的现实意义，但相关研究较少。在此背景下，我们提出了一个新的任务，称为视频异常检索(VAR)，其目的是通过跨模态，如语言描述和同步音频，实用地检索相关的异常视频。

2024-07-11 14:01:20 620

原创 Interleaving OneClass and Weakly-Supervised Models with Adaptive Thresholding for Unsupervised Video

在没有人工标注的情况下，典型的无监督视频异常检测(UVAD)方法需要训练两个相互生成伪标签的模型。在之前的工作中，这两个模型相互紧密纠缠，不知道如何在不显著修改训练框架的情况下升级它们的方法。其次，以往的工作通常采用固定阈值来获得伪标签，但用户指定的阈值不可靠，不可避免地会在训练过程中引入误差。为了缓解这两个问题，我们提出了一种新的交错框架，交替训练UVAD的一类分类(OCC)模型和弱监督(WS)模型。

2024-07-09 19:12:49 597

原创【视频异常检测】Cross-Modal Fusion and Attention Mechanism for Weakly Supervised Video Anomaly Detection

近年来，弱监督视频异常检测(WS-VAD)成为仅使用视频级标签识别视频中暴力、裸露等异常事件的当代研究方向。然而，这项任务面临着巨大的挑战，包括处理不平衡的模态信息和一致地区分正常和异常特征。在本文中，我们针对这些挑战，提出了一个多模态WS-VAD框架来准确检测暴力和裸露等异常。在提出的框架内，我们引入了一种新的融合机制，称为跨模态融合适配器(CFA)，它能够动态选择并增强与视觉模态高度相关的视听特征。

2024-06-30 22:43:59 964

原创 Text Prompt with Normality Guidance for Weakly Supervised Video Anomaly Detection

弱监督视频异常检测(WSVAD)是一个具有挑战性的课题。目前，基于弱标签生成细粒度伪标签，然后对分类器进行自训练是一种很有前途的解决方案。然而，由于现有方法仅使用RGB视觉模态，忽略了对类别文本信息的利用，从而限制了伪标签更准确的生成，影响了自训练的性能。受基于事件描述的人工标注过程的启发，本文提出了一种基于文本提示与正常性引导(TPWNG)的WSVAD伪标签生成与自训练框架。我们的想法是利用对比语言图像预训练(CLIP)模型丰富的语言视觉知识，对视频事件描述文本和相应的视频帧进行对齐，生成伪标签。

2024-06-28 16:00:49 995

原创【视频异常检测】VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection

WSVAD任务假设在训练阶段只有视频级别的标签可用。给定视频vvv，如果该视频的所有帧都不包含异常事件，则将该视频定义为正常视频，并标记y0y=0y0；否则，如果至少有一帧包含异常事件，则将该视频标记为异常，标记为y1y=1y1。WSVAD任务的目标是训练一种在仅提供视频级注释的情况下能够预测帧级异常置信度的检测模型。

2024-06-08 21:24:38 700

原创暴力检测-Modality-Aware Contrastive Instance Learning with Self-Distillation for Weakly-Supervised Audio

弱监督的视听暴力检测旨在通过视频级别标签区分包含多模态暴力事件的片段。许多先前的研究以早期或中期的方式进行视听整合和交互，但忽视了弱监督环境下的模态异质性。本文分析了多实例学习(MIL)过程的模态异步和无关实例现象，并进一步探讨了其对弱监督视听学习的负面影响。为了解决这些问题，我们提出了一种模式感知的自蒸馏对比实例学习(MACIL-SD)策略。具体来说，我们利用轻量级的双流网络来生成音频和视觉包，其中单峰背景，暴力和正常实例以无监督的方式聚类到半包中。

2024-06-07 21:48:17 951

L1783516140的博客