运行计数(Action Counting)是一种计算机视觉技术,主要用于视频中识别并计数特定类型的动作或活动的频率。例如,计算视频中人们拍手的次数或跳跃的次数。这项技术在体育分析、安全监控、健康护理等多个领域都有广泛的应用。
在介绍的多实例重复动作计数(MRAC)任务中,运用了深度学习技术来实现计数功能。具体技术包括:
-
检测与跟踪:通过计算机视觉算法首先检测视频中的动作实例(如人类行为),然后跟踪这些实例在视频序列中的连续帧里的运动。
-
混合时空交互模块:这是一种处理连续帧间上下文关联的高效模块。通过分析时间序列上的上下文关系,来更好地理解和预测动作的连续性和变化。
-
任务特定头部:用于精确感知周期性边界,即识别动作开始和结束的精确时刻。这对于准确计数至关重要,尤其是在动作周期不规则或叠加时。
这些技术的实现意义重大,不仅提高了处理未剪辑视频数据的能力,还能在复杂环境中准确计数,支持实时操作。此外,这种方法对动作的数量和类型具有较强的泛化能力,可以广泛适用于不同的实际应用场景中,如体育赛事自动统计、监控系统中异常行为的自动检测等。

论文作者:Yin Tang,Wei Luo,Jinrui Zhang,Wei Huang,Ruihai Jing,Deyu Zhang
作者单位:Central South University;Tsinghua University;Shanghai Transsion CO., LTD
论文链接:http://arxiv.org/abs/2409.04035v1
内容简介:
1)方向:多实例重复动作计数(MRAC)
2)应用:多实例重复动作计数(MRAC)
3)背景:当前的MRAC任务面临挑战,因为它需要处理未剪辑的视频数据,并准确计数多个实例的重复动作。现有的解决方案通常在处理复杂的上下文关联和任务特定的边界感知方面存在不足。
4)方法:本文提出了MultiCounter,一个全端到端的深度学习框架,能够同时检测、跟踪和计数多个实例的重复动作。MultiCounter包括两个新颖的模块:1) 混合时空交互模块,用于高效地处理连续帧之间的上下文关联;2) 任务特定头部,用于准确感知周期性边界并对与动作无关的人类实例进行泛化。MultiCounter在一个名为MultiRep的合成数据集上进行训练,该数据集由注释的真实世界视频生成。
5)结果:在MultiRep数据集上的实验验证了MRAC任务的基本挑战,并展示了所提模型的优越性。与ByteTrack+RepNet(一个将先进的跟踪器与单一重复计数器结合的解决方案)相比,MultiCounter将Period-mAP提高了41.0%,将AvgMAE降低了58.6%,并使AvgOBO提高了1.48倍。这一成果在MRAC领域设立了新的基准。此外,MultiCounter能够在普通GPU服务器上实时运行,并且对视频中的人类实例数量不敏感。












4214

被折叠的 条评论
为什么被折叠?



