OOD:Prompt-Guided Zero-Shot Anomaly Action Recognition using Pretrained Deep Skeleton Features

本文提出了一种无监督异常动作识别方法,使用预训练的骨架特征和用户提示进行零样本学习。该框架在没有异常样本的情况下,通过建模正常动作特征分布和利用文本嵌入,提高了对骨架错误的鲁棒性,同时防止未观察到的正常动作被误判为异常。实验在两个数据集上展示了方法的有效性。
摘要由CSDN通过智能技术生成

Prompt-Guided Zero-Shot Anomaly Action Recognition using Pretrained Deep Skeleton Features

Abstract

本研究研究研究了无监督异常动作识别,该识别在没有异常样本的情况下以无监督的方式识别视频级异常人类行为事件,并同时解决了传统基于骨架的方法中的三个限制:目标域相关DNN训练、对skele-ton误差的鲁棒性和缺乏正常样本。我们提出了一个统一的、用户提示引导的零样本学习框架,该框架使用了一个目标域相关骨架特征提取器,该提取器在大规模动作识别数据集上进行了预处理。特别地,在使用正态样本的训练阶段,该方法对正态动作的骨架特征的分布进行建模,同时冻结DNN的权重,并在推理阶段使用该分布来估计异常分数。此外,为了提高对骨架错误的鲁棒性,我们引入了一种受点云深度学习范式启发的DNN架构,该架构在关节之间稀疏地传播特征。此外,为了防止未观察到的正常动作被错误识别为异常动作,我们将用户提示嵌入和公共空间中对齐的骨架特征之间的相似性得分合并到异常得分中,这间接地补充了正常动作。在两个公开可用的数据集上,我们进行了实验,以测试所提出的方法在上述限制方面的有效性

1. Introduction

本研究使用了两个假设

  • 用户可以定义异常动作的类别(例如,图1中的"violence")
  • 并且训练样本由可观察到的正常动作组成
  • 未观察到的训练动作被称为分布外(OOD)(例如,图1中的“握手”和“推”)。
  • 当在训练阶段没有观察到足够多的正常样本时,OOD动作也包括未观察到的正常动作(例如,图1中只有“握手”)。

在这里插入图片描述

  • 图中从左到右,越来越“暴力”,动作逐渐倾向“violence”,prompt能提供更细致的类别划分。

主要贡献

  • 这项研究的重点是先前研究中的局限性,以提高可扩展性,例如扩展到不同的应用程序和增强性能,如下所述

受点云深度学习范式的启发,我们引入了一种更直接的DNN,它在关节之间稀疏地传播特征,作为这样的特征提取器,在上述第三个限制中提高了对这种骨架误差的鲁棒性。该体系结构消除了对输入骨架的约束,如输入关节大小和顺序,这些约束取决于数据集/域。它使我们能够在没有任何精细/超参数调整的情况下转移冻结在不同域/数据集上的预训练特征提取器,并同时对域/数据集中的正态样本分布和联合骨架文本嵌入空间进行建模

(1) 我们通过实验证明,使用大规模动作识别数据集预训练的骨架特征,可以替代仅使用正常行为样本的训练得到的特征。
(2) 我们表明,zeroshot 学习范式处理公共空间中的骨架特征和文本嵌入,可以有效地建模正常和异常动作的分布。作者提出了一个全新的统一框架,该框架将用户引导的文本嵌入纳入异常分数的计算中。
(3) 我们通过实验证明,置换不变架构稀疏地传播关节之间的特征,它可以作为骨架特征提取器,在域上对正常样本和关节骨架文本嵌入空间进行建模,并增强对骨架错误的鲁棒性

2. Related work

2.1. Video anomaly detection

2.2. Anomaly action recognition

2.3. Zero-shot action recognition

3. Method

pipeline

        该框架的流水线包括

  1. 预训练,其中DNN在没有正常样本的动作识别数据集上训练;
  2. 训练,其中仅计算正态样本的分布,而不训练DNN;
  3. 推断,其中使用分布和看不见的动作的文本提示来计算异常分数。
  • 图2说明了目标域中的步骤2和3。

在这里插入图片描述

首先,在训练和推理阶段,将多人姿态估计应用于输入视频,以提取人体关节。然后,将每个关节变换为DNN的输入向量v。 (v是由二维关节组成的七维向量,图像上的坐标、时间指数、关节置信度、关节指数以及从人体关节计算的二维质心坐标。),输入向量中的每个元素都在0和1之间进行归一化。所有输入向量 V = { v 1 , ⋅ ⋅ , v J } V=\{v_1,··,v_J\} V={v1⋅⋅vJ}被视为3D点云,输入到DNN以提取骨架特征 x ∈ R S x∈R^S xRS
异常得分被定义为表示x不属于正常样本的概率p(O|x)和表示x包括用户指定的异常动作的概率p(T|x)的联合概率,并且表示如下:

在这里插入图片描述

  • 其中O和T是二进制随机变量。在接下来的部分中,对等式(1)中右侧的每个项和训练模式进行了详细描述。

  • 在正常样本的训练阶段,p(O|x)的参数对训练样本中x的分布进行建模。

  • p(T|x)的参数是与x对应的文本嵌入,如第3.2节所述。

  • 我们向第3.4节中描述的特征提取器提出了一种基于PointNet[24]的机制,该机制是使用大规模动作识别数据集(如Kinetics 400)进行预训练的。作为预训练阶段的一部分,我们引入了骨架特征和文本嵌入之间的对比学习方案,并使用动作分类和对比损失来训练DNN,如第3.3节所述。以下部分将更详细地介绍上述内容和预训练方案。

3.1. OOD score

使用Mahalanobis距离表示x不是正常样本的概率, 以近似 p ( O ∣ x ) p(O|x) p(Ox)。作为OOD分数,,如下所示:

在这里插入图片描述

  • 其中(w1,w2)分别是归一化常数和温度参数。µ和∑分别是训练样本分布的均值向量和协方差矩阵。

在无监督图像异常检测的背景下,Rippel等人[28]通过从正态样本中提取的图像特征的多元高斯分布对异常得分进行建模,同时在训练阶段冻结DNN的权重。与专注于图像输入的Rippel等人[28]相反,异常动作识别必须处理人类骨骼序列的无序输入数据,其中包括关节的FP和FNs、姿势跟踪误差或人数的变化,如第1节所述。所提出的特征提取器建立在PointNet[24]的基础上,它可以处理广泛的骨架序列,因为它对输入向量的阶数具有置换不变的性质。在实验中,我们证明了仅使用p(O|x)作为异常分数的情况也可以实现无监督的异常动作识别,而无需在训练阶段更新DNN的权重。

.2. Prompt-guided action score

  • 我们在等式中近似p(T|x)作为一个称为提示引导动作得分的得分,它表示x包括用户指定的动作的概率。

  • 在推理阶段,给定由文本编码器提取的P个文本嵌入Y={y1,··,yP},P(T|x)近似为:

在这里插入图片描述

  • 其中Cos表示两个向量之间的余弦相似性,f表示预训练的多层感知器(MLP),以对齐x和y的维度。

3.3. Pretraining

本节讨论了所提出的使用大规模动作识别数据集的预训练方案。我们在预训练阶段使用骨架特征和从动作类名中提取的文本嵌入之间的对比学习,以及在使用视频级动作标签的动作分类任务上使用多任务学习。
我们将由一批N个视频中的动作分类损失Lcls和对比损失Lcont组成的总损失L定义如下:
在这里插入图片描述

  • 其中α是损失函数的混合比。

  • 分类损失Lcls被公式化为交叉熵损失,如下所示:

在这里插入图片描述

  • 其中,C是动作类的数量,(h1,···,hC)是一个ground-truth,(one-hot action class vector),(l1,··,lC)是使用全连通层从x计算的logit。

基于CLIP[25]提出的损失函数,使用对称对比损失来公式化对比损失Lcont,如下所示:
在这里插入图片描述

其中Ls2t是骨架特征相对于批处理中的文本嵌入的对比损失,Lt2s是相对于Ls2t[19]相反的损失。如图6所示,3,Ls2t和Lt2s的最小化最大化了骨架特征及其动作类文本嵌入的正对的正弦相似性。此外,它最小化了负对的相似性。Ls2t和Lt2s被公式化为:

在这里插入图片描述

  • 其中,从每个视频i中获得一对正的xi及其嵌入丁毅的动作类文本。τ是可学习的温度参数。

3.4. Skeleton feature extractor

  • 在这项研究中,我们将骨架特征提取器设计为置换不变的DNN架构,该架构稀疏地传播关节之间的特征,利用Max Pooling操作来增强第1节中描述的鲁棒性。受PointNet[24]的启发。这种类型的稀疏特征传播放松了对输入关节大小或顺序的限制,可以处理无序的骨架序列,包括关节的FP和FNs、姿势跟踪误差或任意数量的人。

体系结构如图4所示。它受到ResNet的启发,具有由逐点残差模块组成的简单设计,该模块为每个关节重复MLP。给定输入向量V={v1,··,vJ},我们计算骨架特征x如下:

在这里插入图片描述
在这里插入图片描述

  • 其中MaxPool(·)是从输入向量中获取每个通道的最大值的对称运算。G是提取每个输入关节的高阶表示的DNN。

  • 特别地,G在迭代地执行残差MLP块r次之前,首先将MLP运算应用于输入向量。该残差MLP块从输入向量uin∈R中提取输出向量uout∈RDout
    Din,其公式为:

在这里插入图片描述

4. Experiments

通过在两种情况下与传统方法的准确性进行对比,我们评估了所提出的框架对第1节所述限制的有效性。一种是异常动作可以由用户指定。
另一个是它的定义不明确,导致用户只能描述在训练阶段看到的有限数量的正常动作。使用RWF-2000[7]和Kinetics-250[20]这两个动作识别数据集分别评估了这些情况。此外,消融研究验证了所提出的方法的精确性能,包括其对骨架检测误差、文本提示变化和域偏移的鲁棒性。UT交互数据集[29]的定性结果如图所示。2。具体实施详见补充资料。

4.1. Datasets

两个动作识别数据集RWF-2000[7]和Kinetics-250[20]用于第4.3节中讨论的两个评估设置。分别使用基于监督学习(SL)和基于无监督学习(USL)的方法对每个数据集进行了检查。注意,与此类方法不同,我们的方法不需要使用nor-mal样本进行任何DNN训练。此外,我们使用两个大型动作识别数据集,Kinetics-400[4]和NTU RGB+D 120[17],对所提出的DNN进行预训练。分别选择每个预训练数据集,考虑到视频源与相应评估数据集的差异或它们的领域差距[17],并观察到大量的动作。表1描述了评估(训练和测试)和预训练阶段使用的数据集的组合。

  • Kinetics-400。Kinetics-40[4]是一个从YouTube4视频中收集的大型动作识别数据集,包含400个动作类。它包含250K训练和19K验证,10秒视频剪辑,每秒30帧。
  • RWF-2000。RWF-2000[7]是从YouTube视频中收集的暴力识别数据集。这些视频有两个动作,暴力或非暴力,由各种人和背景的安全摄像头拍摄。有1.6K的训练和0.4K的测试5秒视频剪辑,每秒30帧。每个视频有两个类标签注释
  • NTU RGB+D 120。NTU RGB+D 120[17]是一个大规模的动作识别数据集,包括在实验室环境中捕获的视频。它包含114k个视频和120个动作类。我们使用交叉设置(X-set)设置进行数据分割,其中训练和测试阶段的相机设置不同
  • Kinetics-250.是Kinetics 400数据集的一个子集,由250个动作类别的视频组成。由于Kinetics-400数据集包含聚焦于人类头部和手臂的视频,因此基于骨骼的方法的准确性会受到这些视频的显著影响。

因此,Markovitz等人[20]选择了250个动作类别的视频进行评估,这些视频在动作分类准确性方面表现最好,并允许对骨骼进行准确检测。在本研究中,我们采用了Markovitz等人提出的评估设置,如第4.3节所述。

  • [20] Amir Markovitz, Gilad Sharir, Itamar Friedman, Lihi ZelnikManor, and Shai Avidan. Graph Embedded Pose Clustering
    for Anomaly Detection. In CVPR, 2020. 1, 2, 3, 6, 7
    在这里插入图片描述

4.2. Pose detectors

  • PPN。如表1所示,在RWF-2000数据集上的实验中,由于没有公开可用的骨架数据,我们在几个基线(PointNet++和DGCNN)的异常动作识别精度相似的条件下使用了 Pose Proposal Networks (PPN)检测器[30]。PPN[30]以自下而上的方式从RGB图像中高速检测人体骨骼。它们由Pelee骨干[38]组成,并在MS-COCO数据集[15]上进行训练。人体骨骼的定义与OpenPose[3]相同。作为PPN的输入,我们将图像大小调整为320×224 px2
    .
  • HRNet[34]是一种自上而下的姿势检测器。它具有优越的精度,而包括人体探测器在内的计算成本(Faster R-CNN[27])是昂贵的。在Kinetics-250数据集上的实验中,我们使用了Haodong等人[9]给出的公开可用的HRNet骨架5。

4.3. Evaluation settings

  • RWF-2000。在之前的研究中,RWF-2000数据集用于评估以监督方式训练的模型的暴力行为识别准确性。本文将非暴力行为和暴力行为分别定义为正常行为和非正常行为。所提出的方法与监督方法的不同之处在于,所提出方法的训练阶段使用非暴力动作样本,并且DNN权重在整个阶段被冻结。因此,该方法以零样本的方式识别暴力行为,不需要对异常(暴力)行为进行任何观察,也不需要地面真实标签
    在训练期间。通过五种不同的手工制作的文本提示来表达暴力行为,我们测试了预设方法的准确性,并使用了准确性最高的方法(见表6)。暴力或非暴力的分类准确性被用作评估指标。在MS-COCO验证集上,PPN的姿态检测平均精度为36.4%。请注意,实验中的基线使用了高精度的姿态检测器RMPE[10],其姿态检测平均精度为72.3%。

在这里插入图片描述

  • Kinetics-250。Kinetics250数据集的评估设置遵循先前的研究[20]。特别是,我们使用了“少对多”设置,该设置将三到五个动作类定义为正常,将其余动作类定义为非正常。与另一种设置相比,只有少量类被定义为异常,这种设置对所提出的方法提出了更大的挑战。两种数据拆分,随机拆分和有意义拆分,用于评估。随机分割的几个类由三到五个动作类组成,这些动作类是从Kinetics-250中定义的动作类中随机选择的。有意义的划分由Markovitz等人的一组类别组成。主观地按照一些关于行动的物理或环境特性的约束逻辑进行分组。我们采用每次拆分的平均ROC-AUC作为评估指标。
    如前所述,所提出的方法只使用Few类的标签文本作为文本提示。因此,为了使用此类提示来确定提示引导动作得分,我们更新了第4.4节中解释的定义,因为异常动作是有条件的。以下是修改后的公式。(4)

在这里插入图片描述

4.4. Comparisons with SoTA approaches

选项卡。2和3分别总结了所提出的方法以及最先进的(SoTA)方法在RWF-2000和Kinetics-250数据集上的异常动作识别准确性。根据表2,所提出的即时引导框架(Ours)在准确性方面优于以前的几种监督方法,包括PointNet++[32]、DGCNN[32]和STGCN[42]。尽管在我们的方法中使用了不准确的姿态检测器(PPN),但其精度也仅与SPIL[32]的精度相当7个百分点。此外,表3表明,提出的方法(我们的方法)的准确性优于SoTA无监督方法。所提出的方法的这些结果是在没有对目标进行任何DNN训练的情况下实现的,尽管以前的方法需要一段时间来训练DNN

在这里插入图片描述
在这里插入图片描述

CG

  • Prompt-Guided Zero-Shot Anomaly Action Recognition using Pretrained Deep Skeleton Features

  • EVAL: Explainable Video Anomaly Localization

  • Hierarchical Semantic Contrast for Scene-aware Video Anomaly Detection

  • Generating Anomalies for Video Anomaly Detection with Prompt-based Feature Mapping

  • WinCLIP: Zero-/Few-Shot Anomaly Classification and Segmentation

  • Video Event Restoration Based on Keyframes for Video Anomaly Detection

  • Revisiting Reverse Distillation for Anomaly Detection

  • Unbiased Multiple Instance Learning for Weakly Supervised Video Anomaly Detection

  • Prototypical Residual Networks for Anomaly Detection and Localization

  • SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection

  • Look Around for Anomalies: Weakly-supervised Anomaly Detection via Context-Motion Relational Learning

  • A New Comprehensive Benchmark for Semi-supervised Video Anomaly Detection and Anticipation

  • Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly Supervised Video Anomaly Detection

  • Diversity-Measurable Anomaly Detection

  • OmniAL: A unified CNN framework for unsupervised anomaly localization

  • SimpleNet: A Simple Network for Image Anomaly Detection and Localization

  • DeSTSeg: Segmentation Guided Denoising Student-Teacher for Anomaly Detection

  • Self-Supervised Video Forensics by Audio-Visual Anomaly Detection

  • Explicit Boundary Guided Semi-Push-Pull Contrastive Learning for Supervised Anomaly Detection

  • 大多数异常检测 (AD) 模型仅使用正常样本学习 无监督方式,可能导致决策边界模糊和 鉴别力不足。事实上,一些异常样本通常是 在实际应用中可用,已知异常的宝贵知识 也应得到有效利用。但是,利用一些已知的异常 在训练期间可能会导致另一个问题,即模型可能会被那些 已知异常,无法推广到看不见的异常。在本文中,我们 解决监督异常检测,即我们使用一些 可用的异常,目的是检测可见和不可见的 异常。我们提出了一种新的显式边界引导半推拉 对比学习机制,可增强模型的辨别能力 同时减轻偏见问题。我们的方法基于两个核心设计: 首先,我们找到一个明确而紧凑的分隔边界作为指导 进一步的特征学习。由于边界仅依赖于法线要素 分布,由一些已知的异常引起的偏差问题可能是 缓解。其次,将边界引导半推挽损耗发展为仅 将正常特征拉在一起,同时将异常特征分开 从超出某个边缘区域的分隔边界。这样,我们的 模型可以形成更明确和判别性的决策边界 将已知和不可见的异常与正常样本区分开来 更多 有效。代码将在此 https URL 上提供。

  • Multimodal Industrial Anomaly Detection via Hybrid Fusion 通过混合融合进行多模态工业异常检测

  • 然而,基于2D的工业异常检测已被广泛讨论, 基于三维点云和RGB图像的多模态工业异常检测 仍然有许多未触及的领域。现有的多式联运工业异常 检测方法直接连接多模态特征,从而导致 特征之间的强烈干扰,会损害检测性能。在 在本文中,我们提出了多3D内存(M3DM),一种新颖的多模态异常 基于混合融合方案的检测方法:首先设计一种无监督 功能融合与补丁对比学习,以鼓励 不同模态特征的相互作用;其次,我们使用决策层 与多个存储体融合,以避免信息丢失和额外的 新颖性分类器做出最终决定。我们进一步提出一个观点 要素对齐操作,以更好地对齐点云和 RGB 要素。 大量实验表明,我们的多模态工业异常检测 模型在检测和 MVTec-3D AD 数据集上的分割精度。代码可在此 https URL 中找到。

自我监督学习是一种机器学习方法,通过对数据进行合理的预测任务,从中获得有用的表示。与传统的监督学习不同,自我监督学习不需要人工标注的标签来指导训练,而是利用数据自身的信息进行训练。 自我监督学习的基本思想是从未标记的数据中构造有意义的标签,然后将这些标签用作训练数据,以学习有用的特征表示。通过对输入数据进行某种形式的变换或遮挡,可以生成一对相关的样本。其中一个样本称为正样本,另一个则被视为负样本。例如,在图像领域中,可以通过将图像进行旋转、裁剪或遮挡等变换来生成正负样本对。模型的目标是通过学习从一个样本到另一个样本的映射,从而使得正样本对之间的相似度更高,负样本对之间的相似度更低。 自我监督学习在许多任务中都取得了很好的效果。例如,在自然语言处理任务中,可以通过遮挡句子中的某些单词或短语来生成正负样本对,然后通过学习从一个句子到另一个句子的映射来进行训练。在计算机视觉任务中,可以通过图像的旋转、裁剪、遮挡或色彩变换等方式来生成正负样本对。 自我监督学习的优点是不需要人工标注的标签,可以利用大量的未标记数据来进行训练,从而扩大训练数据的规模。此外,自我监督学习还可以通过学习到的特征表示来提高其他任务的性能,如分类、目标检测和语义分割等。 总之,自我监督学习是一种有效的无监督学习方法,通过构造有意义的预测任务,从未标记的数据中学习有用的特征表示。它在各种任务中都有广泛的应用,并具有很高的潜力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值