[ECCV‘22] Poseur: Direct Human Pose Regression with Transformers

paper link: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136660071.pdf

code link: GitHub - aim-uofa/Poseur: [ECCV 2022] The official repo for the paper "Poseur: Direct Human Pose Regression with Transformers".

  • Reference point:DETR中的Decoder收敛缓慢主要存在两个原因:1)匈牙利匹配;2)全特征图切块和queries的cross-attention。后者的一个主要改进来自Deformable DETR,提出通过Deformable Attention从特征图中稀疏采样,提高了训练收敛速度和准确率。如何初始化Deformable Attention的reference point是一个很大的问题,DETR中通过sigmoid(linear(query))求得,SLPT中提出用训练集的先验信息,而Poseur则提出基于Backbone预测的粗定位。
  • 基于uncertainty score融合多次推理结果
  • RLE Loss

目录

摘要

引言

本文贡献

方法

Architecture

Training Targets and Loss Functions

Inference

实验

Ablation Study

和SOTA方法的比较


摘要

  • 提出一种端到端可导的2D人体关键点检测算法;
  • 现有的基于Heatmap的方案,存在计算开销大等问题。本文引入Transformer,从图片直接回归关键点坐标,无需额外的中间表征;
  • 现有的基于回归的方案,存在特征不匹配等问题。本文引入Deformable Attention,逐步为关键点匹配最合适的特征;
  • 实验表明,在MS-COCO和MPII上超过现有最优的回归方法。

引言

  1. 基于Heatmap的方案,存在多个问题:1)Heatmap需要手工设计和调整;2)取极值操作不可导;3)heatmap分辨率小于原图,存在量化误差。
  2. 基于回归的方案,整体来说不存在上诉问题,但性能不如Heatmap。造成性能较差的的原因,包括:1)为了减少最后FC层的参数量,基于回归的方法(例如:DeepPose、RLE)使用Global Average Pooling (GAP) 降低CNN特征的分辨率,但这破坏了CNN特征的空间结构;2)基于回归的方法(例如:Direct Pose、SPM)的CNN特征和预测并没有对齐,导致定位不准确;3)回归方法没有探索关键点间的结构依赖关系。

  • 本文提出Poseur,基本结构为CNN + Transformer decoder。它具有下列特点:1)不需要GAP降低特征分辨率;2)通过cross-attention机制,消除CNN特征和预测不匹配的问题;3)通过self-attention机制,学习关键点间的结构依赖关系。如下图,Poseur具有下列优点:1)在多个backbones上超过heatmap-based方法;2)在低分辨率backbones上效果仍然不错。

本文贡献

  • 提出transformer-based框架,该框架计算开销小,同时在低分辨率特征下表现不错,例如:基于(ResNet-50,COCO),相较于SimpleBaseline,Poseur减少49% FLOPs,提高了5.0 AP。
  • 基于(ResNet-50,COCO),相较于RLE,Poseur提高了4.9AP;基于(HRNet-W48,COCO),相较于UDP-Pose,Poseur提高了1.0 AP;
  • 无需裁剪操作,Poseur可以很快适配在端到端pipeline上。基于(HRNet-W48,COCO),相较于PointSet,Poseur提高了3.8 AP。

方法

Architecture

  • Backbone:基于CNN(ResNet、HRNet)或Transformer(HRFormer)的Backbone。Backbone有两个作用:1)提取多层特征,是query decoder中的输入之一;2)通过GAP + FC层回归粗结果,粗结果基于RLE监督。
  • Keypoint endoer:用于初始化query decoder的query Q。Q = Q_c + μ_f,其中Q_c是可学习变量,u_f是经过sine-cosine位置编码的初始化坐标。初始化坐标可能是:1)Backbone预测的粗结果;2)标准化的随机噪声,后者是本文提出一种query增强方法,用于改善模型鲁棒性。
  • Query decoder:与Transfomer的decoder类似,包括N层,每层包括self-attention,cross-attention和feed-forward networks(FFNs)。DETR中self-attention和cross-attention都是multi-head self-attention,Poseur中将cross-attention实现为efficient multi-scale deformable attention (EMSDA)。Deformable DETR中的MSDA,考虑Q个query和对应的reference point,通过query预测K个采样点的偏移量和权重系数,从多层特征中采样特征,并输出加权和。相较于Deformable DETR中的MSDA,本文实现的EMSDA仅在采样特征后添加线性层,降低计算开销。
  • 总结来说,Poseur通过Query decoder中的self-attention学习关键点间的依赖关系,通过基于deformable attention的cross-attention学习每个关键点对应的特征,解决特征不匹配的问题。

Training Targets and Loss Functions

  • 损失函数为RLE,包括Backbone的粗预测和query decoder的细粒度预测。

Inference

Prediction uncertainty estimation

 

实验

  • Datasets:1)COCO2017 Keypoint Detection,250K person,17 keypoints;2)MPII
  • Model settings:backbone ResNet-50 (pre-trained on ImageNet);input image 256 x 192;embedding size = 256;3 decoder layers。
  • Training:batch size = 256,325 epoch

Ablation Study

  • Initialization of keypoint queries:相较于DETR中,refrence points = Sigmoid(Linear(object queries)),本文基于Backbone的粗预测,有0.6 AP的提升。
  • Noisy reference points sampling strategy:0.6 AP的提升。
  • Uncertainy estimation:不用RLE:70.0 AP;用RLE:73.6;predictions with re-score:74.7。
  • Varying decoder layers:增加decoder层数,会带来一定的提升。
  • Varying the input size:对小分辨率有效。

和SOTA方法的比较

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值