SimCC: a Simple Coordinate Classification Perspective for Human Pose Estimation翻译与笔记

Abstract

一直以来HPE(人体姿态估计)采用2D热图算法来计算骨骼节点,然而有几个缺点:

1.在输入的解析度较低时,性能表现较差

2.为了更高的定位精度,需要采用多个计算成本较高的上采样层。

3.需要额外的后处理操作来减少误差。

SimCC将HPE看成垂直和水平坐标的两个分类任务,将像素划分为更小的几个区块,因此能够达到亚像素级别的定位精度,因此不再需要上采样和后处理操作。

Introduction

2D热图是根据GT的人体节点位置生成二维的高斯分布,通过为每个位置分配一个概率来平滑训练过程并且阻止伪正例的情况。考虑到高解析度的2D热图会带来较高的计算成本,一种方法是将2D热图解耦为1D热图然后增加解析度。然而这种放啊引入了额外的解耦层(为了提高1D的相关性而引入了cross attention和多个卷积层),这将会使1D的计算过程比2D更复杂。
而SimCC通过将HPE看成垂直和水平坐标的两个分类任务,将像素划分为更小的几个区块,仅采用两个轻量级的分类头,而不需要反卷积层。
图1 基于1D热图和2D热图以及本文提出方法的比较

图1 基于1D热图和2D热图以及本文提出方法的比较

Related Works

由于空间的不确定性,2D热图的模式能够容忍空间抖动的误差,使得这种模式能够保持SOTA性能多年,然而低分辨率的量化误差仍然是一个非常重要的问题。

1.量化误差问题

为了解决2D降采样的离散化的特征图所带来的大量误差,Zhang等提出采用基于taylor展开的分布近似作为后处理,全面考虑热图激活的分布信息。Yin等人探索了另一种减轻量化误差的面部坐标检测方法,采用可学习解耦层将2D热图转换为1D热图,然后使用额外的反卷积层来提高1D热图分辨率。

2.面部坐标的1D热图回归

为了解决量化误差问题,通过采用反卷积层提高解耦后的1D热图的解析度,同时为了获取解耦后的1D热图间的联合分布,又引入了cross-attention。

3.坐标分类方法

之前Chen等提出了Pix2Seq方法将目标检测视为语言建模任务,为了之后的分类,目标被描述为5个token(x1,x2,y1,y2,class)组成的序列。Transformer的decoder架构是为了输出每个物体的目标检测信息来产生预测。

相比之下,SimCC探索出了一条区别于基于热图的方法的新的路线,能够简单的和基于CNN或者Transformer的Backbone组装在一起,不依赖于额外的Transformer decoder来产生预测。

Method

图2 SimCC架构

图2 SimCC架构

1.Backbone

给一张H*W*3的输入图片,SimCC能够采用CNN或者Transformer的Backbone提取出n张节点特征图。

2.Head

水平和垂直分类头(每个分类头只包含一个linear层)被放置在Backbone之后来分别实现坐标分类,对于CNN的backbone,将节点特征图(n, H′, W ′) 展平至(n, H′ × W ′)用于之后的分类。和热图的方法相比,它们使用多个反卷积层,SimCC更轻量更加简单。

3.Coordinate classification

为了实现分类和训练,统一将每个连续的坐标值离散化为用作分类类别的整数。cx ∈ [1, Nx], cy ∈ [1, Ny], where Nx = W · k and Ny = H · k。cx,cy代表着垂直和水平轴上划分的块数,k是划分的因子,将其值设为>=1来减少量化的误差,来产生亚像素级别的预测。具体地,给定第i个节点的特征图作为输入,通过垂直和水平坐标的分类器来分别产生第i个节点的坐标预测 o x i o^{i}_{x} oxi o x i o^{i}_{x} oxi。KL散度被用作训练的损失函数。

4.Label smoothing

传统的分类任务,标签平滑被广泛用于提升模型性能,因此本文采用了等价标签平滑方法,然而这种方法不平等地惩罚了每个分错的类,忽视了HPE任务中临近类别的空间的相关性。一个比较好的解决思路是,输出的类别离GT越近,应该越优。为了解决这个问题,使用了拉普拉斯或者高斯标签平滑,能够使平滑后的标签服从对应的分布。

Comparisons to 2D heatmap-based approaches

在这一部分中,本文对SimCC方案与基于二维热图的方法相比的优点进行了全面的研究。

1.Quantization error

由于维持二维高解析度结构需要较高的计算成本,基于2D热图方法倾向于输出λ倍降采样输入解析度的特征图,这将很大程度上增加了量化的误差,而SimCC对特征图的每个像素进行划分,每个像素划分成k个小块,这将能减少量化误并且能够获得亚像素级别的定位精度。

2.Refinement post-processing

基于热图的方法严重依赖额外的后处理来减少量化误差。如表1所示,如果不使用后处理进行细化,基于热图的方法的性能会显著下降。然而,这些后处理策略通常计算成本很高,因此不太适用于落地应用。例如,DARK后处理方案用泰勒展开,需要根据得到的二维热图计算更高阶导数。相比之下,所提出的SimCC省略了精化后处理。

3.Low/high resolution robustness

对比结果如图2所示。受益于较低的量化误差,基于SimCC的方法可以在各种输入大小(即64×64, 128×128, 256×192和384×288)中优于基于热图的方法,特别是在低输入分辨率下表现出明显的增益。

4.Speed

SimCC摆脱了计算成本较高的反卷积层,从而加快了推理速度。值得注意的是,在去除上采样层后,SimCC的SimpleBaseline-Res50减少了57.3%的GFLOPs,提高了23.5%的速度,并且比基于热图的同类增加了0.4 AP。
表1

表1 针对热力图的方法和SimCC方法的后处理性能的研究

图3

图3 针对不同尺寸下的Simcc方法和热力图的方法的性能表现

Limitation and Future Work

在top-down技术路线下的人体姿态估计中,SimCC能够正常工作,但是当它用于bottom-up路线下的HPE任务中时,多个人体带来了识别的模糊性,潜在的未来工作是以类似于AE(“Associative embedding: End-to-end learning for joint detection and grouping. In: Advances in Neural Information Processing Systems” (Li 等, 2022, p. 17) (pdf) )的方式引入额外的嵌入,以解决候选坐标x和y值之间的匹配问题。

Conclusions

在本文中,探索了一种简单的人体坐标表示方法(即SimCC)。它将关键点定位任务视为水平轴和垂直轴的两个分类子任务,分别代表x坐标和y坐标,通过将人体姿态估计15个关节划分为两个独立的一维向量。实验结果表明,二维结构的热力图可能不是达到优异性能的关键因素。所提出的SimCC在模型性能方面比基于热图的表示更有优势。此外,它也可能促进HPE任务在轻量化模型设计方面的新工作。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值