[ECCV‘22] Poseur: Direct Human Pose Regression with Transformers

最新推荐文章于 2024-08-01 11:23:07 发布

zzl_1998

最新推荐文章于 2024-08-01 11:23:07 发布

阅读量1k

点赞数

分类专栏： Human Pose Estimation 文章标签：人工智能

本文链接：https://blog.csdn.net/qq_40731332/article/details/128135798

版权

5 篇文章 0 订阅

订阅专栏

Reference point：DETR中的Decoder收敛缓慢主要存在两个原因：1）匈牙利匹配；2）全特征图切块和queries的cross-attention。后者的一个主要改进来自Deformable DETR，提出通过Deformable Attention从特征图中稀疏采样，提高了训练收敛速度和准确率。如何初始化Deformable Attention的reference point是一个很大的问题，DETR中通过sigmoid(linear(query))求得，SLPT中提出用训练集的先验信息，而Poseur则提出基于Backbone预测的粗定位。
基于uncertainty score融合多次推理结果
RLE Loss

基于Heatmap的方案，存在多个问题：1）Heatmap需要手工设计和调整；2）取极值操作不可导；3）heatmap分辨率小于原图，存在量化误差。
基于回归的方案，整体来说不存在上诉问题，但性能不如Heatmap。造成性能较差的的原因，包括：1）为了减少最后FC层的参数量，基于回归的方法（例如：DeepPose、RLE）使用Global Average Pooling (GAP) 降低CNN特征的分辨率，但这破坏了CNN特征的空间结构；2）基于回归的方法（例如：Direct Pose、SPM）的CNN特征和预测并没有对齐，导致定位不准确；3）回归方法没有探索关键点间的结构依赖关系。

本文提出Poseur，基本结构为CNN + Transformer decoder。它具有下列特点：1）不需要GAP降低特征分辨率；2）通过cross-attention机制，消除CNN特征和预测不匹配的问题；3）通过self-attention机制，学习关键点间的结构依赖关系。如下图，Poseur具有下列优点：1）在多个backbones上超过heatmap-based方法；2）在低分辨率backbones上效果仍然不错。

提出transformer-based框架，该框架计算开销小，同时在低分辨率特征下表现不错，例如：基于（ResNet-50，COCO），相较于SimpleBaseline，Poseur减少49% FLOPs，提高了5.0 AP。
基于（ResNet-50，COCO），相较于RLE，Poseur提高了4.9AP；基于（HRNet-W48，COCO），相较于UDP-Pose，Poseur提高了1.0 AP；
无需裁剪操作，Poseur可以很快适配在端到端pipeline上。基于（HRNet-W48，COCO），相较于PointSet，Poseur提高了3.8 AP。

Backbone：基于CNN（ResNet、HRNet）或Transformer（HRFormer）的Backbone。Backbone有两个作用：1）提取多层特征，是query decoder中的输入之一；2）通过GAP + FC层回归粗结果，粗结果基于RLE监督。
Keypoint endoer：用于初始化query decoder的query Q。Q = Q_c + μ_f，其中Q_c是可学习变量，u_f是经过sine-cosine位置编码的初始化坐标。初始化坐标可能是：1）Backbone预测的粗结果；2）标准化的随机噪声，后者是本文提出一种query增强方法，用于改善模型鲁棒性。
Query decoder：与Transfomer的decoder类似，包括N层，每层包括self-attention，cross-attention和feed-forward networks（FFNs）。DETR中self-attention和cross-attention都是multi-head self-attention，Poseur中将cross-attention实现为efficient multi-scale deformable attention (EMSDA)。Deformable DETR中的MSDA，考虑Q个query和对应的reference point，通过query预测K个采样点的偏移量和权重系数，从多层特征中采样特征，并输出加权和。相较于Deformable DETR中的MSDA，本文实现的EMSDA仅在采样特征后添加线性层，降低计算开销。
总结来说，Poseur通过Query decoder中的self-attention学习关键点间的依赖关系，通过基于deformable attention的cross-attention学习每个关键点对应的特征，解决特征不匹配的问题。

Prediction uncertainty estimation

推理阶段包含两次前向，第一次为正常前向，第二次会将图片反转，通过uncertainty score融合两次推理结果。
参考代码：https://github.com/aim-uofa/Poseur/blob/9358ed54dc597f9c46b114e8f57b018b5af55ddd/mmpose/models/detectors/poseur.py#L231
考虑两个Poseur model，增加keypoint score为模型带来了4.7 AP的提升，这减少了大量false positives。考虑到通过normalization flow model计算uncertainty比较耗时，本文提出假设预测分布为拉普拉斯分布，整理后uncertainty可通过下式计算，其中a = 0.2为超参数。

Datasets：1）COCO2017 Keypoint Detection，250K person，17 keypoints；2）MPII
Model settings：backbone ResNet-50 (pre-trained on ImageNet)；input image 256 x 192；embedding size = 256；3 decoder layers。
Training：batch size = 256，325 epoch

Initialization of keypoint queries：相较于DETR中，refrence points = Sigmoid(Linear(object queries))，本文基于Backbone的粗预测，有0.6 AP的提升。
Noisy reference points sampling strategy：0.6 AP的提升。
Uncertainy estimation：不用RLE：70.0 AP；用RLE：73.6；predictions with re-score：74.7。
Varying decoder layers：增加decoder层数，会带来一定的提升。
Varying the input size：对小分辨率有效。

关注

专栏目录