[CVPR‘22 SLPT] Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relat

zzl_1998

已于 2022-11-24 16:06:26 修改

阅读量999

点赞数

分类专栏：人脸文章标签： transformer 深度学习人工智能

于 2022-11-24 13:55:18 首次发布

本文链接：https://blog.csdn.net/qq_40731332/article/details/128013976

版权

人脸专栏收录该内容

5 篇文章 1 订阅

订阅专栏

Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relation Learning

paper: CVPR_2022_paper

github: GitHub - Jiahao-UTS/SLPT-master

摘要

Heatmap-based方法是目前Face alignment中的主流方法，然而该类方法忽略了点位之间的内在关联；
本文提出Sparse Local Patch Transformer (SLPT)，用于学习点位之间的内在关联；
SLPT的主要步骤：1）基于局部块生成每个点位的特征表示；2）基于注意力机制学习这些点位的内在关联；3）小数坐标是基于聚合特征（aggregated feature）独立预测的。
本文引入了一种coarse-to-fine框架，从初始点位逐渐收敛至目标点位，这个过程中，局部块会逐渐缩小，生成细粒度特征。
在COFW、300W和WFLW上达到sota；

引言

Heatmap regression方法的两个局限性：1）由于人脸具有规则的结构，因此人脸点位间的内在关联对人脸点位检测至关重要。而CNN更关注局部特征，导致CNN无法从全局视角捕捉点位间的内在关联；2）引入量化误差。Coordinate regression方法中，FC层帮助模型学习点位间的内在关联，但也破坏了局部特征。
与DETR使用整张特张图不同，SLPT：1）基于局部块生成每个点位的特征表示；2）可学习的landmark queries用于聚合这些特征；3）基于cross-attention机制，SPLT在每层中学习自适应邻接矩阵；4）基于局部块，用一个独立的MLP预测每个点位的小数坐标。受益于局部块的使用，input token的数量可以减少很多。
SLPT引入了coarse-to-fine框架，与cascaded-based方法类似，SLPT从初始点位逐渐收敛至目标点位。其中，局部块基于初始点位或预测点位从图片特征图中裁剪得到，在每次迭代中会缩小1/2。

本文主要贡献

提出SLPT，该方法可以学习点位间的内在关联；
引入corase-to-fine框架，使局部块逐步收敛至目标点位附近，得到细粒度特征。
在COFW、300W和WFLW上达到sota。

方法

SLPT

SLPT包含三个部分： 1）patch embedding & structure encoding；2）Inherent relation layers；3）prediciton heads。

patch embedding. 1）以点位为中心，从特征图上裁剪固定尺寸的局部块；2）基于线性差值，将局部块resize为K x K；3）基于CNN，映射为向量。
structure encoding. 可学习的相对位置参数。从结果上来看，相邻位置有较高的相似度，例如左右眼。

Inherent relation layer. 包含：1）multi-head self-attention (MSA) block；2）multi-heat cross attention (MCA) block；3）multilayer perceptron (MLP)。其中MSA用于学习landmarks queries之间的关系；MCA用于学习点位特征和landmarks queries之间的关系。

Prediction head. inherent relation layer的输出是相对局部块的局部位置。最终输出是经过MLP处理的inherent relation layer输出。最终坐标等于：局部快坐标 + 局部快相对位置坐标

Coarse-to-fine locating. 初始点位是训练集的平均脸。

Loss Function：1）对coarse-to-fine的每一步输出；2）对每一层inherent relation layer的输出，使用L2损失监督。

实验

Implementation Details. 输入图片resize到256 x 256，K = 7，有6个inherent relation layers，3步coarse-to-fine。使用了两种backbone：1）HRNetW18C；2）ResNet34。输出的特征图大小为64 x 64。

Benchmarking

Ablation Study

1. coarse-to-fine：有显著效果。

2. MSA和MCA：1）without MSA和MCA，直接基于点位特征回归；2）without MCA，点位特征作为queries input。

3. Structure encoding：微弱提升。

4. Computational complexity：跑了3次coarse-to-fine，对FLOPs的影响在可接受范围内。

5. Patch Size：7 x 7最佳。

6. Layer number：越多越好

Visualization

zzl_1998

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
[CVPR‘22 SLPT] Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relat

Heatmap-based方法是目前Face alignment中的主流方法，然而该类方法忽略了点位之间的内在关联；本文提出Sparse Local Patch Transformer (SLPT)，用于学习点位之间的内在关联；SLPT的主要步骤：1）基于局部块生成每个点位的特征表示；2）基于注意力机制学习这些点位的内在关联；3）小数坐标是基于聚合特征（aggregated feature）独立预测的。
复制链接

扫一扫

专栏目录