Supervised Descent Method(人脸对齐之SDM论文解析)

Supervised Descent Method(人脸对齐之SDM论文解析)

标签: SDM NLS Jacobian Hessian FaceAlignment


作者:贾金让
本人博客链接:http://blog.csdn.net/jiajinrang93

1.概述

文章名称:Supervised Descent Method and its Applications to Face Alignment
文章来源:2013CVPR
文章作者:Xuehan Xiong,Fernando De la Torre
简要介绍:这篇文章主要提出了一种名为SDM(Supervised Descent Method)的方法,用来最小化非线性最小二乘(Non-linear Least Squares)目标函数,即目标函数是均方误差。SDM方法通过学习得到一系列下降的方向和该方向上的尺度,使得目标函数以非常快的速度收敛到最小值,回避了求解Jacobian矩阵Hessian矩阵的问题。下面开始详细介绍,我补充了文章中只给出结果的推导过程,并且稍微调整了一下文章中牛顿步的推导过程。

2.从牛顿步说起

数值优化在很多领域都有很重要的应用,计算机视觉中很多重要的问题比如(行人跟踪、人脸对齐等)都可以化成非线性优化问题来解决。解决非线性优化的方法有很多,其中非常常用的有基于一阶的或者是二阶的优化方法,比如梯度下降方法牛顿步LM算法等等。尽管很多年过去了,在二阶导可求得情况下,牛顿步仍然被认为是一个非常优秀的算法。

那么什么是牛顿步方法呢?下面简单介绍一下牛顿步,后面还会详细推导牛顿步。

牛顿步:在Hessian矩阵正定的情况下,极小值可以通过求解线性方程组来迭代求解。给定一个初始的估计值 x 0 ∈ ℜ p × 1 x_0\in\Re^{p\times1} x0p×1,牛顿步的更新迭代公式如下:
x k + 1 = x k − H − 1 ( x k ) J f ( x k ) (1) x_{k+1}=x_k-H^{-1}(x_k)J_f(x_k)\tag{1} xk+1=xkH1(xk)Jf(xk)(1)
其中 H − 1 ( x k ) ∈ ℜ p × p H^{-1}(x_k)\in\Re^{p\times p} H1(xk)p×p是在 x k x_k xk点的Hessian矩阵, J f ( x k ) ∈ ℜ p × 1 J_f(x_k)\in\Re^{p\times1} Jf(xk)p×1是 在 x k x_k xk点的 Jacobian矩阵。
牛顿步方法有
两个主要优点

  1. 如果牛顿步可以收敛,那么它的收敛速度是二次的,收敛速度非常快。
  2. 如果初始点在最小点邻域附近,那么它一定可以收敛。
    但牛顿法在应用中,也有几个缺点
  3. Hessian矩阵在极小值附近是局部正定的,但可能不是全局正定的,这就会导致牛顿步并不一定朝向下降的方向。
  4. 牛顿步需要函数二次可导。这个要求在实际应用中是一个很强的要求,比如图像处理中经常被使用的SIFT特征,它可以被看成是一个不可导的特征,因此在这种情况下,在我们只能通过数值逼近下降的方向或者是Hessian矩阵,但这种计算代价非常大。
  5. 由于Hessian矩阵通常很大,计算它的逆矩阵代价是非常大的,复杂度通常是 O ( p 3 ) O(p^3) O(p3)
    以上三个缺陷使我们在实际应用中,很难计算精确的Hessian矩阵,甚至连数值逼近都是很困难的(由于计算代价比较大)。因此,该文章提出了SDM方法,用数据来学习下降的方向。下面两张图可以用来初步表示牛顿步和SDM两种方法的基本原理。

image_1bc9q0m4l8s7dhk130utud1bl213.png-96.5kB

3.人脸对齐的几个概念(简单介绍)

在介绍SDM之前,还要先简单提一下人脸识别中人脸对齐的基本原理和相关的关键词,因为该SDM方法主要是在人脸对齐方面进行应用。
人脸对齐(Face Alignment)基本原理
基本概念人脸识别(face recognizaton)按顺序可以大体上分为四个部分,即人脸检测(face detection),人脸对齐(face alignment),人脸校验(face verification)和人脸识别(face identification)。 人脸检测就是在一张图片中找到人脸所处的位置,即将人脸圈出来,比如拍照时数码相机自动画出人脸。人脸对齐就是在已经检测到的人脸的基础上,自动找到人脸上的眼睛鼻子嘴和脸轮廓等标志性特征位置。人脸校验就是判断两张脸是不是同一个人。人脸识别就是给定一张脸,判断这张脸是谁。
本文研究其中的第二部分,人脸对齐
人脸对齐中的几个关键词:
形状(shape):形状就是人脸上的有特征的位置,如下图所示,每张图中所有黄点构成的图形就是该人脸的形状。
特征点(landmark):形状由特征点组成,图中的每一个黄点就是一个特征点。

image_1bc9qc9jl1ap9a2q8e31nn39q19.png-387.7kB

人脸对齐的最终目的就是在已知的人脸方框(一般由人脸检测确定人脸的位置)上定位其准确地形状。
人脸对齐的算法主要分为两大类:基于优化的方法(Optimization-based method)和基于回归的方法(Regression-based method)。
SDM方法属于基于回归的方法。
基于回归的方法的基本原理:对于一张给定的人脸,给出一个初始的形状,通过不断地迭代,将初始形状回归到接近甚至等于真实形状的位置。

4.Supervised Descent Method

给定一张含有m个像素的图片 d ∈ ℜ m × 1 d\in\Re^{m\times1} dm×1, d ( x ) ∈ ℜ p × 1 d(x)\in\Re^{p\times1} d(x)p×1表示该图片上的p个特征点, h ( ) h() h()表示一个非线性特征提取函数,比如 h ( d ( x ) ) ∈ ℜ 128 p × 1 h(d(x))\in\Re^{128p\times1} h(d(x))128p×1可以表示从p个特征点上提取出的SIFT特征,每个特征点提取出了128个SIFT特征。那么我们的目标就是,在给定一个初始形状 x 0 x_0 x0的基础上,通过回归的方法,将 x 0 x_0 x0回归到该人脸正确的形状 x ∗ x_* x上,用数学的方式表达,即为求得使下面的 f ( x 0 + Δ x ) f(x_0+\Delta x) f(x0+Δx)最小的 Δ x \Delta x Δx
f ( x 0 + Δ x ) = ∣ ∣ h ( d ( x 0 + Δ x ) ) − ϕ ∗ ∣ ∣ 2 2 (2) f(x_0+\Delta x)=||h(d(x_0+\Delta x))-\phi_*||_2^2\tag{2} f(x0+Δx)=h(d(x0+Δx))ϕ22(2)
其中 ϕ ∗ = h ( d ( x ∗ ) ) \phi_*=h(d(x_*)) ϕ=h(d(x))表示该人脸的真实特征点所提取出的SIFT特征,当然,上面说的是在预测时我们的目标,在预测时我们只有初始的 x 0 x_0 x0,而 Δ x \Delta x Δx ϕ ∗ \phi_* ϕ我们是不知道的。在训练时,我们是知道 Δ x \Delta x Δx ϕ ∗ \phi_* ϕ的,我们要在训练时训练得到一个良好的回归器,使它能够让初始的 x 0 x_0 x0一步步回归到正确的未知的形状上去。一般来说初始的 x 0 x_0 x0就是所有已知样本的真实形状的平均形状。示意图如下图所示。

image_1bcc8bb8i1rrh1nt61fpilrg1b979.png-106.6kB

那么问题来了,如果每一张脸的初始形状都是一样的(即都是已知样本的真实形状的平均形状),那么怎么让它们回归到各自人脸的真实形状呢,答案就是每张图片提取出的不同的SIFT特征(具体采用什么特征可以依据情况而定,论文中 采用了SIFT特征,但也可以采用如HOG,DOG,甚至LBF等特征)了,虽然采用了相同的初始形状,但在不同的图片上,相同的初始形状所提取出的SIFT特征是完全不同的,也就是 ϕ 0 \phi_0 ϕ0是不同的,这样就可以通过回归器将其回归到各自的真实形状上了。这一点通过上面的公式也能看出。

现在我们已经有了优化的目标,就是要得到一个回归器,这个回归器能起到的作用是将一个初始形状回归到真实形状上去。也就是学到正确的回归器使其得到最好的 Δ x \Delta x Δx 。当然想要从初始形状一步步回归到真实形状,只学习一个 Δ x \Delta x Δx一般是不行的,因为一步就回归到最小点一般来说要求比较高,即使是牛顿步回归的比较快,通常也不能一步就达到目标。所以我们要学习得到多个不同的回归器,它们依次回归下来,能得到一系列的 Δ x \Delta x Δx,这样我们就能很快根据 x k + 1 = x k + Δ x x_{k+1}=x_k+\Delta x xk+1=xk+Δx得到使目标函数最小的点。

下面从牛顿步开始引出SDM。
首先再写一遍目标函数,如下:
f ( x 0 + Δ x ) = ∣ ∣ h ( d ( x 0 + Δ x ) ) − ϕ ∗ ∣ ∣ 2 2 (3) f(x_0+\Delta x)=||h(d(x_0+\Delta x))-\phi_*||_2^2\tag{3} f(x0+Δx)=h(d(x0+Δx))ϕ22(3)
我们使用的是从初始特征点周围提取的SIFT特征作为第一次回归的输入,然而SIFT算子是不可导的,所以如果想要使用一阶或者二阶方法来最小化上面的目标函数,那就只能用数值逼近的方法来估计Jacobian和Hessian矩阵(比如有限差分方法等)。然而数值估计计算量非常大,所以我们要采用SDM方法来学习下降的方向和下降的尺度,或者说学习Jaobian和Hessian矩阵。

为了从牛顿步开始引出SDM,我们首先假设 h ( ) h() h()这个SIFT特征提取函数是二次可导的。这样才能计算Hessian矩阵。

以下部分推导和论文不同,论文中只给了结论,我补充了论文没有写的推导过程。同时优化了一下牛顿步的推导过程

第一步,我们首先获得一个初始的形状 x 0 x_0 x0,采用的方式是用所有训练样本的真实形状的平均形状给 x 0 x_0 x0赋值,也就是说我们迭代的初值为:
KaTeX parse error: \tag works only in display equations
接着就可以根据公式(3)计算 f ( x 0 ) f(x_0) f(x0),即令 Δ x = 0 \Delta x=0 Δx=0

现在我们已经有了 f ( x 0 ) f(x_0) f(x0),我们想要知道朝什么样的方向改变 x 0 x_0 x0并且改变多少 x 0 x_0 x0可以得到一个好的 f ( x 1 ) f(x_1) f(x

  • 10
    点赞
  • 48
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值