You, K., Hou, Z., Liang, J., Lin, E., Shi, H., & Zhong, Z. (2024). A 4D strong spatio-temporal feature learning network for behavior recognition of point cloud sequences. Multimedia Tools and Applications. https://doi.org/10.1007/s11042-023-18045-3
一个用于点云序列行为识别的4D强时空特征学习网络。
摘要:
尽管在行为识别中广泛使用的深度图序列能够提供深度信息,但深度像素之间的关联性不强,行为数据的时空结构信息在很大程度上丧失。点云数据能够提供丰富的空间信息和几何特征,弥补了深度图像的不足。为了进一步利用行为动作的几何信息,提高时空结构信息的利用率,本文提出了一种用于点云序列行为识别的4D强时空特征学习网络。对深度数据集进行坐标转换以生成点云数据集,然后我们的网络处理每一帧点云数据,学习4D强时空特征(三个空间维度和一个时间维度)。网络包括两个模块,即空间层次特征学习模块和时间层次位置编码模块。在空间层次特征学习模块中,处理和学习点云的空间维度。每一帧点云数据通过两个渐进式结构增强的集合抽象层输出一个特征序列,代表了强空间结构。然后,通过最大池化操作形成一个完整的空间层次特征序列。在时间层次位置编码模块中,处理和学习点云的时间维度。通过位置编码等方式将时间序列信息注入特征序列。最后,对人体动作的多层次特征进行汇聚和分类。在三个公共数据集上进行了实验,结果表明本文提出的网络结构优于当前最先进的方法。
图1:点云序列的4D强时空特征学习网络结构图。生成的点云序列首先输入到SLFLM模块。增强的集合抽象1中的集合抽象操作的输出被用作增强的集合抽象2的输入。两组增强的集合抽象操作的输出在最大池化操作后合并成一个完整的空间层次特征向量。增强的集合抽象2中的集合抽象操作的输出在MLP和最大池化操作后作为TLPCM模块的输入。在位置编码、共享MLP和金字塔池化后,该特征与两个子时间特征合并成一个完整的时间层次特征向量。
图2:深度图转换为点云数据的示意图(以MSR-Action3D为例)。将深度图序列的每一帧转换为一个点云帧,然后按时间维度的顺序存储这些点云帧。