【CVPR2022】论文阅读：Revisiting Skeleton-based Action Recognition

error:404..

已于 2022-09-22 09:46:36 修改

阅读量2.4k

点赞数 2

分类专栏：姿态估计文章标签：论文阅读

于 2022-09-14 15:32:57 首次发布

本文链接：https://blog.csdn.net/qq_41845951/article/details/126853095

版权

姿态估计专栏收录该内容

15 篇文章 3 订阅

订阅专栏

基于GCN的局限性：

1.输入特征是坐标，坐标对预测影响太大，一个小偏移会导致不同的结果

2.不容易与其他特征聚合

3.GCN的Gflops太大

1. Introduction

在本文中，作者提出了一个新的框架poseconov3d，它可以作为基于GCN的方法的竞争替代方案。特别是，PoseConv3D将图1所示的现代姿势估计器获得的2D姿势作为输入。2D姿势由骨骼关节的热图堆栈表示，而不是在人体骨骼图上操作的坐标。不同时间步的热图将沿时间维度堆叠，以形成3D热图体积。PoseConv3D然后在3D热图体积的顶部采用3D卷积神经网络来识别动作。

对比基于GCN的方法，PoseConv3D主要有以下优势：

（1）使用3D热图体素对上游姿势估计更具鲁棒性：PoseConv3D在通过不同方法获得的输入骨架上具有良好的通用性。

（2）poseconov3d依赖于基于表示的热图，享有卷积网络架构的最新进展，并且更容易与其他模式集成到多流卷积网络中。这一特性为进一步提高识别性能开辟了很大的设计空间。

（3）最后，poseconov3d可以处理不同数量的人，而不会增加计算开销，因为3D热图体积的复杂性与人数无关。

2. Related Work

GCN for skeleton-based action recognition

CNN for skeleton-based action recognition

3. Framework

3.1. Good Practices for Pose Extraction

坐标三元组（x，y，c），其中c表示热图的最大得分，（x，y）是c的对应坐标。在实验中，我们发现坐标三元组（x，y，c）在性能几乎没有下降为代价的情况下，有助于节省大部分存储空间。

3.2. From 2D Poses to 3D Heatmap Volumes

从视频帧中提取2D姿势后，为了将其输入PoseConv3D，我们将其重新格式化为3D热图体积。形式上，我们将2D姿势表示为大小为K x H xW的热图，其中K是关节数，H和W是帧的高度和宽度。我们可以直接使用自顶向下姿态估计器生成的热图作为目标热图，在给定相应边界框的情况下，对热图进行零填充以匹配原始帧。如果我们只有骨架关节的坐标三元组（xk，yk，ck），我们可以通过合成以每个关节为中心的K个高斯贴图来获得关节热图J：