[CVPR‘22 SLPT] Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relat

Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relation Learning

paper: CVPR_2022_paper

github: GitHub - Jiahao-UTS/SLPT-master

摘要

  • Heatmap-based方法是目前Face alignment中的主流方法,然而该类方法忽略了点位之间的内在关联;
  • 本文提出Sparse Local Patch Transformer (SLPT),用于学习点位之间的内在关联;
  • SLPT的主要步骤:1)基于局部块生成每个点位的特征表示;2)基于注意力机制学习这些点位的内在关联;3)小数坐标是基于聚合特征(aggregated feature)独立预测的。
  • 本文引入了一种coarse-to-fine框架,从初始点位逐渐收敛至目标点位,这个过程中,局部块会逐渐缩小,生成细粒度特征。
  • 在COFW、300W和WFLW上达到sota;

引言

  • Heatmap regression方法的两个局限性:1)由于人脸具有规则的结构,因此人脸点位间的内在关联对人脸点位检测至关重要。而CNN更关注局部特征,导致CNN无法从全局视角捕捉点位间的内在关联;2)引入量化误差。Coordinate regression方法中,FC层帮助模型学习点位间的内在关联,但也破坏了局部特征。
  • 与DETR使用整张特张图不同,SLPT:1)基于局部块生成每个点位的特征表示;2)可学习的landmark queries用于聚合这些特征;3)基于cross-attention机制,SPLT在每层中学习自适应邻接矩阵;4)基于局部块,用一个独立的MLP预测每个点位的小数坐标。受益于局部块的使用,input token的数量可以减少很多。
  • SLPT引入了coarse-to-fine框架,与cascaded-based方法类似,SLPT从初始点位逐渐收敛至目标点位。其中,局部块基于初始点位或预测点位从图片特征图中裁剪得到,在每次迭代中会缩小1/2。

本文主要贡献

  1. 提出SLPT,该方法可以学习点位间的内在关联;
  2. 引入corase-to-fine框架,使局部块逐步收敛至目标点位附近,得到细粒度特征。
  3. 在COFW、300W和WFLW上达到sota。

方法

SLPT

SLPT包含三个部分: 1)patch embedding & structure encoding;2)Inherent relation layers;3)prediciton heads。

  • patch embedding. 1)以点位为中心,从特征图上裁剪固定尺寸的局部块;2)基于线性差值,将局部块resize为K x K;3)基于CNN,映射为向量。
  • structure encoding. 可学习的相对位置参数。从结果上来看,相邻位置有较高的相似度,例如左右眼。

  • Inherent relation layer. 包含:1)multi-head self-attention (MSA) block;2)multi-heat cross attention (MCA) block;3)multilayer perceptron (MLP)。其中MSA用于学习landmarks queries之间的关系;MCA用于学习点位特征和landmarks queries之间的关系。

Prediction head. inherent relation layer的输出是相对局部块的局部位置。最终输出是经过MLP处理的inherent relation layer输出。最终坐标等于:局部快坐标 + 局部快相对位置坐标

Coarse-to-fine locating. 初始点位是训练集的平均脸。

  • Loss Function:1)对coarse-to-fine的每一步输出;2)对每一层inherent relation layer的输出,使用L2损失监督。

实验

Implementation Details. 输入图片resize到256 x 256,K = 7,有6个inherent relation layers,3步coarse-to-fine。使用了两种backbone:1)HRNetW18C;2)ResNet34。输出的特征图大小为64 x 64。

Benchmarking

 Ablation Study

1. coarse-to-fine:有显著效果。

 2. MSA和MCA:1)without MSA和MCA,直接基于点位特征回归;2)without MCA,点位特征作为queries input。

 3. Structure encoding:微弱提升。

 4. Computational complexity:跑了3次coarse-to-fine,对FLOPs的影响在可接受范围内。

5. Patch Size:7 x 7最佳。

 6. Layer number:越多越好

Visualization

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值