动作识别是一种计算机视觉技术,用于分析和理解人类在视频或其他形式的动态数据中所执行的动作。它的目标是让计算机自动识别和分类各种动作,例如跑步、跳跃、挥手等。动作识别技术广泛应用于视频监控、行为分析、虚拟现实等领域,通过对人类动作的监测和分析,帮助提升安全、用户体验和效率。
本文提到了一种基于骨架的动作识别模型,称为 Action-OOD。这个模型主要用于解决“超出分布检测”的问题,即识别训练数据中未曾见过的动作。该方法通过使用 注意力机制 和 基于能量的损失函数 来增强模型的识别能力。注意力机制能够帮助模型聚焦于动作中最相关的部分,而基于能量的损失函数则有助于区分已知和未知的动作类别。
意义:动作识别技术在实际应用中有重要价值,特别是在视频监控中,可以用来自动识别异常行为,提高安全性;在虚拟现实中,动作识别能够增强用户与虚拟环境的互动体验;在行为分析领域,动作识别可以帮助了解和评估人的行为模式。本文提出的方法有效解决了训练数据无法涵盖所有动作的挑战,并在多种数据集上展示了优越性能,推动了动作识别技术的发展。
论文作者:Jing Xu,Anqi Zhu,Jingyu Lin,Qiuhong Ke,Cunjian Chen
作者单位:Monash Suzhou Research Institute;Monash University;University of Melbourne
论文链接:http://arxiv.org/abs/2405.20633v1
项目链接:https://github.com/YilliaJing/Action-OOD.git
内容简介:
1)方向:动作识别
2)应用:视频监控、行为分析、虚拟现实等
3)背景:在实际场景中,人类的动作经常会超出训练数据的分布范围,这对于计算机视觉系统来说是一个挑战。然而,目前关于人类动作的超出分布检测的研究较少。现有的工作主要集中在具有RGB结构的图像数据上,而且许多方法都是事后的性质。
4)方法:本文提出一种新的端到端的基于骨架的模型,称为Action-OOD,专门用于超出分布的人类动作检测。与一些现有方法需要先前了解现有超出分布数据分布的先验知识不同,该模型在训练阶段仅利用分布内数据,有效地减轻了超出分布检测中普遍存在的过度自信问题。引入一个基于注意力的特征融合块,增强了模型对未知类别的识别能力,同时保持了已知类别的分类准确性。此外,提出一种新的基于能量的损失函数,并成功将其与传统的交叉熵损失函数相结合,以最大化分布内和超出分布之间的数据分布分离。
5)结果:通过在NTU-RGB+D 60、NTU-RGB+D 120和Kinetics-400数据集上进行的大量实验,展示了所提出的方法相对于最先进方法的优越性能。此次发现强调了经典超出分布检测技术在基于骨架的动作识别任务中的有效性,为该领域的未来研究提供了有前途的途径。源代码: https://github.com/YilliaJing/Action-OOD.git 。