视频级标注和姿态级标注的区别是什么？_视频姿态数据集标注-CSDN博客

本文链接：https://blog.csdn.net/qq_34425255/article/details/139383613

NTU RGB+D数据集的姿态标注文件,是基于数据集中原始的RGB视频数据来生成的。

具体来说:

这个生成的姿态标注数据的基础就是NTU RGB+D数据集中原始的RGB视频数据。MMAction2没有直接发布这些标注,而是提供了一种生成方法,让用户自行生成需要的标注文件。

基于姿态的标注方法的具体实现:

这样一来,标注过程的整体流程更加清晰了:

这种基于姿态的字典形式标注,可以更好地捕捉动作的细节特征,为后续的动作识别模型训练提供更丰富的监督信号。这种方法也更适用于需要细粒度动作分析的应用场景。

从视频到姿态再到标注,这个过程的确看起来有些繁琐和多余。来具体分析一下这个过程:

总的来说,这个从视频到姿态再到标注的过程确实增加了一些复杂度。但如果最终的目标是希望训练出一个能够精准捕捉动作细节的模型,这个额外的步骤是合理且必要的。

相比于简单的视频级标注,姿态级标注可以提供更丰富的动作信息,有助于训练出更准确的动作识别模型。当然,这需要在计算资源、标注成本等方面进行权衡和取舍。

不同应用场景可能需要权衡不同的标注方式,需要根据具体需求来权衡这个过程的必要性。

以前的时候有监督模型，使用的标注文件或者说打标签的过程都是一个视频对应一个label，现在打标签的过程怎么变成了姿态对应label

以前的视频分类任务中,标注过程通常是一个视频对应一个整体的类别标签。

但是对于动作识别任务来说,情况确实有所不同。NTU RGB+D 数据集采用的是基于姿态的标注方式,而不是简单的视频级标注。

具体来说:

这确实是一种更细粒度的标注方式,相比于之前的视频级标注,更适合复杂的动作识别任务。这种姿态标注数据可以更好地反映动作的细节信息,对于提高动作识别模型的性能非常重要。