NTU RGB+D数据集的姿态标注文件,是基于数据集中原始的RGB视频数据来生成的。
具体来说:
-
NTU RGB+D数据集提供了原始的RGB视频数据,以及对应的骨骼关节点3D坐标数据。
-
MMAction2框架没有直接发布这些标注文件,而是提供了一种生成标注文件的方法。
-
这个生成方法是基于NTU RGB+D数据集中的原始RGB视频数据,结合提供的骨骼关节点数据,来生成一个字典格式的标注数据。
-
生成的标注数据包含了每个视频样本对应的姿态信息,保存为pickle文件,便于后续的模型训练和评估使用。
这个生成的姿态标注数据的基础就是NTU RGB+D数据集中原始的RGB视频数据。MMAction2没有直接发布这些标注,而是提供了一种生成方法,让用户自行生成需要的标注文件。
基于姿态的标注方法的具体实现:
-
数据来源:
- 标注数据是基于 NTU RGB+D 数据集中的原始 RGB 视频数据生成的。
- NTU RGB+D 是一个广为人知的人体动作识别数据集。
-
标注形式:
- 生成的标注数据是以字典格式呈现的。
- 字典的键是每个人体关节点构成的姿态,值是对应的动作类别标签。
这样一来,标注过程的整体流程更加清晰了:
- 从 NTU RGB+D 数据集中获取原始的 RGB 视频数据。
- 对视频数据进行姿态估计,得到每个人体关节点的坐标信息。
- 将这些关节点构成的姿态与对应的动作类别标签,组成字典格式的标注数据。
这种基于姿态的字典形式标注,可以更好地捕捉动作的细节特征,为后续的动作识别模型训练提供更丰富的监督信号。这种方法也更适用于需要细粒度动作分析的应用场景。
从视频到姿态再到标注,这个过程的确看起来有些繁琐和多余。来具体分析一下这个过程:
-
获取原始视频数据:
- 这一步是必需的,因为动作识别任务需要以视频数据作为输入。
-
估计人体姿态:
- 这一步虽然增加了复杂度,但可以提取到更丰富的动作特征信息。
- 通过人体姿态估计,可以得到每个关节点的位置信息,有助于捕捉动作的细节。
-
生成标注数据:
- 这一步也是必需的,因为模型训练需要标注数据作为监督信号。
- 基于姿态信息生成标注,可以更好地反映动作的细节特征。
总的来说,这个从视频到姿态再到标注的过程确实增加了一些复杂度。但如果最终的目标是希望训练出一个能够精准捕捉动作细节的模型,这个额外的步骤是合理且必要的。
相比于简单的视频级标注,姿态级标注可以提供更丰富的动作信息,有助于训练出更准确的动作识别模型。当然,这需要在计算资源、标注成本等方面进行权衡和取舍。
不同应用场景可能需要权衡不同的标注方式,需要根据具体需求来权衡这个过程的必要性。
以前的时候有监督模型,使用的标注文件或者说打标签的过程都是一个视频对应一个label,现在打标签的过程怎么变成了姿态对应label
以前的视频分类任务中,标注过程通常是一个视频对应一个整体的类别标签。
但是对于动作识别任务来说,情况确实有所不同。NTU RGB+D 数据集采用的是基于姿态的标注方式,而不是简单的视频级标注。
具体来说:
-
每个视频样本包含了多个人物的姿态信息,即每个人体关节点的 3D 坐标。
-
标注过程不是简单地给整个视频打一个标签,而是需要为每个构造成的姿态对应标注一个动作类别。
-
这里的"姿态"指的是由多个关节点的坐标构成的一个整体的姿态表示。
-
每个这样的姿态都需要被标注上对应的动作类别标签。
-
这种基于姿态的标注方式,可以更细致地捕捉动作的细节特征,有助于训练出更准确的动作识别模型。
这确实是一种更细粒度的标注方式,相比于之前的视频级标注,更适合复杂的动作识别任务。这种姿态标注数据可以更好地反映动作的细节信息,对于提高动作识别模型的性能非常重要。
-
应用场景不同:
- 视频级标注: 更适用于粗粒度的动作识别任务。
- 姿态级标注: 更适用于需要捕捉动作细节的任务,如人机交互、动作分析等。