[论文笔记] Face Alignment at 3000FPS via Regression Local Binary Features

最新推荐文章于 2024-05-24 09:34:12 发布

jingle021

最新推荐文章于 2024-05-24 09:34:12 发布

阅读量1.1k

点赞数

分类专栏： face alignment 论文解读文章标签：论文解读

本文链接：https://blog.csdn.net/jcx1314/article/details/53783889

版权

face alignment 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

论文解读

2 篇文章 0 订阅

订阅专栏

Contents
名词解释
级联分类和级联回归
- 级联分类器
- 级联回归器
  - 1 级联
  - 2 回归
3000fps文章逻辑和使用级联回归器的来龙去脉
参考文献

名词解释

Shape ：关键点的集合，形状包含了关键点的位置信息
绝对shape：关键点相对于整张图像的位置（0， width）
相对shape：关键点相对于人脸框的位置（0, 1）

级联分类和级联回归

1. 级联分类器

             选择特征对应的最优弱分类器，级联弱分类器为强分类器

f n = \sum i = 1 n C i (x) (1)

$f_n=\sum_{i=1}^nC_i(x)\tag{1}$
其中，C代表一个弱分类器，x 代表是特征向量，f 代表得分。
每个弱分类器C根据自己的分类方法对x输出一个分类结果，比如是人脸或者不是人脸。f(n=1~N)都会对应一个阈值threshold，任意一个f小于对应的阈值时，样本会被拒绝。通常不是一张人脸的图片在经过前几个弱分类器的判断后就会被拒绝，根本不需要做后面的判断，速度很快。

2. 级联回归器

学习多个回归函数 $f_1,f_2,f_3...f_n$ 来逼近目标函数F。Face alignment at 3000fps被看作是学习一个回归函数θ=F(I)

2.1 级联

input：图像
output：θ 为人脸形状（即关键点位置）

θ = F (I) = f n (f n - 1 (\dots f 1 (θ 0, I), I), I) (2)

$θ=F(I)= f_n (f_{n-1} (…f_1 (θ_0,I),I),I)\tag{2}$

θ i = f i (θ i - 1, I), i = 1, 2, \dots, n (3)

$θ_i=f_i (θ_{i-1},I), i=1,2,…,n\tag{3}$

所谓级联，即当前函数 $f_i$ 的输入依赖于上一级函数 $f_{i-1}$ 的输出 $θ_{i-1}$ ，而每个函数 $f_i$ 的学习目标都是逼近特征点的真实位置θ。
通常情况， $f_i$ 不是直接的回归真实位置θ，而回归当前形状 $θ_{i-1}$ 与真实位置θ之间的差值，即回归这一阶段的偏移量：∆ $θ_{i-1}$ =θ- $θ_{i-1}$ ，然后shape加上这个偏移量，反复这个过程

2.2 回归

形状偏移量：

Δ S t = W t ϕ t (I, S t - 1) (4)

$ΔS^t=W^tϕ^t(I,S^{t-1} )\tag{4}$
目标函数：

min w t, Φ t l \sum i = 1 N | | Δ S^t i - Δ S t i | | 22 (5)

$\min_{w^t,Φ_l^t} \sum_{i=1}^N ||Δ\hat{S}_i^t-ΔS_i^t||_2^2\tag{5}$
线性回归目标函数：

min w, b \sum i = 1 N (y i - w x i - b) 2 (6)

$\min_{w,b} \sum_{i=1}^N (y_i-wx_i-b)^2\tag{6}$
线性回归:

f (x i) = w x i + b 使 得 f (x i) ≌ y i (7)

$f(x_i)=wx_i+b \quad使得\quad f(x_i )≌y_i\tag{7}$
3000fps:

Δ S t 使 得 Δ S t ≌ Δ S^t i (8)

$ΔS^t \quad使得\quad ΔS^t≌Δ\hat{S} _i^t\tag{8}$

所以回归包含的是：线性回归、回归树、随机森林、随机蕨回归器等一切可以回归的方法。

3000fps文章逻辑和使用级联回归器的来龙去脉

face alignment最近几年的思路是回归regression，即
$((S 0 + Δ S 1) + Δ S 2) + . . . + Δ S t$ $((S^0+ ΔS^1)+ ΔS^2)+...+ ΔS^t$
$Δ S t = W t ϕ t (I, S t - 1)$ $ΔS^t=W^tϕ^t(I,S^{t-1} )$
其中 $ϕ^t$ 为特征映射函数，提取特征； $W^t$ 为线性回归矩阵
之前的 $ϕ^t$ ，提取的特征都是人工设计的，如SIFT特征
本篇文章的 $ϕ^t$ ，提取的是基于回归树的局部特征，叫做LBF
优点：学习到的是task-specific feature
提出疑问：(1)practical issue (2)generalization issue
解决： “local”principle 即 (1)每个关键点一个 ${ϕ}_i^t$ ; (2)各自 ${ϕ}_i^t$ 独立回归，最后组合成为 $ϕ^t$
过程：stage by stage
(1). 为一个关键点学习一个 ${ϕ}_i^t$ ，利用 ${ϕ}_i^t$ 得到LBF特征
(2). concatenate所有的 ${ϕ}_i^t$ ，得到 $ϕ^t$
(3). 通过全局线性回归学习得到 $W^t$

3.1 $ϕ^t$ 训练

ϕ t = [ϕ t 1, ϕ t 2, ϕ t 3 . . .]

$ϕ^t=[{ϕ}_1^t, {ϕ}_2^t, {ϕ}_3^t...]$
学习

ϕt1 ${ϕ}_1^t$ ，回归目标函数为

ΔSt1 ${ΔS}_1^t$ 即，对于真实值的形状增量

min w t, Φ t l \sum i = 1 N | | Δ S^t i - Δ S t i | | 22 = min w t, Φ t l \sum i = 1 N | | Δ S^t i - W t i ϕ t i (I, S t - 1) | | 22 = min w t, Φ t l \sum i = 1 N | | 真 实 差 距 - 预 测 的 差 距 | | 22

$\min_{w^t,Φ_l^t} \sum_{i=1}^N ||Δ\hat{S}_i^t-ΔS_i^t||_2^2=\min_{w^t,Φ_l^t} \sum_{i=1}^N ||Δ\hat{S}_i^t- {W}_i^t{ϕ}_i^t(I,S^{t-1} )||_2^2=\min_{w^t,Φ_l^t} \sum_{i=1}^N ||真实差距-预测的差距||_2^2$
即令差距最小时，求

wt,Φtl $w^t,Φ_l^t$

回归过程：
（1）输入：pdf 像素差特征
（2）回归树：训练回归函数即回归树，得到特征提取函数 $ϕ^t$ ，提取LBF特征
（3）线性回归：回归得到全局的偏移量
（4）输出：回归得到这一阶段的偏移量，上一阶段shape + 这一阶段偏移量 = 这一阶段shape，反复迭代。即 $S^{t-1}+∆S^t = S^t ，t=1,...,T$ 其中 $∆S^t=W^tΦ^t(I_i,S_i^{t-1})$

前面内容可知级联回归器可以使一个初始shap，通过级联回归函数无限的去逼近真实人脸关键点位置。由此得到目标函数，去学习每一个stage的 $w^t,ϕ^t$ ，得到每一个stage的回归函数。

其中 $∆S^t=S^{gt}-S^t$ 为第t个stage的形状残差增量； $ϕ^t$ 代表特征提取函数，提取LBF特征； $W^t$ 为线性回归参数矩阵，即2维×N张图的矩阵，每一列保存叶子节点相应的2D向量

[Δ x 1 Δ y 1 Δ x 2 Δ y 2 Δ x 3 . . . Δ y 3 . . .]

$\begin{bmatrix} Δx_1& Δx_2 & Δx_3 ...\\ Δy_1& Δy_2 & Δy_3 ... \\ \end{bmatrix}$

所以： $ϕ^t$ 表示往哪儿偏移， $W^t$ 表示偏移多少。
$W^t$ 里面放着所有形状偏移量，所以称之为形状索引。

第t stage，某一个关键点即某一个随机森林，由输入图片根据overlapping分配输入图片数量训练十棵决策树（同其他RF）。
每张图的关键点固定半径内，随机选择两像素差值共500，组成500×N张图的输入矩阵。
分裂原则：对任意输入像素差值，把输入样本分成两部分，对总的样本和左右两子叶的样本分别做方差，其中最大方差衰减的像素差值为分裂节点。即：