CVPR: Bilateral Ordinal Relevance Multi-instance Regression for Facial Action Unit Intensity

Bilateral Ordinal Relevance Multi-instance Regression for Facial Action Unit Intensity Estimation

Abstract

问题:

  • 捕捉面部表情的微小表化很困难;
  • AU强度的标注费时费力。

本文:
提出弱监督的BORMIR模型:weakly supervised regression model-Bilateral Ordinal Relevance Multi-instance Regression。通过引入数据间的序列关系来提高AU强度的检测。

Introduction

问题:
当前的大多数关于AU强度检测的工作都是有监督的且很少有工作关注利用无标签的数据中蕴含的信息。

这里写图片描述

如图2所示,AU强度会随着面部的变化而缓慢变化。相比于对每帧进行AU强度的标注,识别关键帧(peak和valley帧)是比较容易的。从valley到peak帧,AU强度是逐渐变化的。本文的模型即尝试利用该特性。对于从valley到peak以及从peak到valley分别都可以构成一个片段(segment),我们把该片段称为bag,把其中的帧定义为instance。对于每一个bag,有两种标签(two bag labels):peak bag label(peak帧的AU强度),valley bag label(valley帧的AU强度)。引入”相关性“的概念来表示每一个instance与一个bag label的关系。

  • 在每一个片段(segment)中,帧越接近于peak(valley),它与peak(valley)的相关性越大,换言之,即序列相关性;
  • 因为变化是平滑的,临近的两帧的相关性的差别应该很小;
  • 因为变化是平滑的,临近的两帧的强度的差别应该很小。

方法的pipeline是:

这里写图片描述

The proposed method

将下降的segment,反转成上升的,即将peak到valley的segment进行反转,由此训练集中的segment的强度都变为由valley上升到peak的过程。

训练集 D={(Bi,y0i,yi)}Ni=1 D = { ( B i , y i 0 , y i ) } i = 1 N 包含N个segment,定义 Bi=[B1i,B2i,,Bnii]Rd×ni B i = [ B i 1 , B i 2 , … , B i n i ] ∈ R d × n i 表示第i个segment的image features,其中 ni n i 是帧的数量,d是特征的维度。peak bag label是 yiR y i ∈ R ,表示peak帧的强度。Valley bag label y0iR y i 0 ∈ R 是valley frame的强度。定义 αji α i j βji β i j 分别表示第j帧中与peak和valley的相关性。我们定义: Hi=nij=1αjiβji=Biai H i = ∑ j = 1 n i α i j β i j = B i a i 表示一个bag中的instance的组合。为了保证组合在这些instance的凸包中, ai a i 需要满足 nij=1aji=1 ∑ j = 1 n i a i j = 1 以及 ai0 a i ≥ 0

给定训练集D,我们的目标是学习一个关于帧的强度检测器 f f ,对于一个未知标签的帧xRd,可以给出预测的结果y,即 y=f(x;w)=wTx y = f ( x ; w ) = w T x

与peak相关性(peak relevance) αi α i 相似,对于 βi β i 同样有 nij=1βji=1,βi0 ∑ j = 1 n i β i j = 1 , β i ≥ 0 。对每一帧,peak和valley相关性并不是相互独立的,两者之间存在关联,如当peak相关性较小时,valley相关性较大,我们有 αji+βji=αki+βki α i j + β i j = α i k + β i k 。对于bag中的所有帧,将上述关系表示成矩阵的形式,可得:

Vi(αi+βi)=0(1) (1) V i ( α i + β i ) = 0

其中 ViRni×ni,Vj,ji=1,Vj,j+1i=1 V i ∈ R n i × n i , V i j , j = 1 , V i j , j + 1 = − 1 ,其它元素为0。对于peak bag label的损失为:
L(w,{αi}Ni=1,D)=12i=1N(yiwTBiαi)2(2) (2) L ( w , { α i } i = 1 N , D ) = 1 2 ∑ i = 1 N ( y i − w T B i α i ) 2

同样的,valley bag label的损失是:
L0(w,{βi}Ni=1,D)=12i=1N(y0iwTBiβ)2(3) (3) L 0 ( w , { β i } i = 1 N , D ) = 1 2 ∑ i = 1 N ( y i 0 − w T B i β ) 2

Incorporating Knowledge

Ordinal relevance:
因为在一个segment中,强度的变化是平滑的且单调的,可知一帧距离peak帧越近,则peak相关性越大;同样的,一帧距离valley越近,则valley相关性越大。在一个训练集的segment中,peak相关性逐渐增大,valley相关性逐渐减小。对于特征 Bi B i ,对于peak相关性有:

Sα(αi)={αiRni|eTiαi=1,0α1iα2iαnii}(4) (4) S α ( α i ) = { α i ∈ R n i | e i T α i = 1 , 0 ≤ α i 1 ≤ α i 2 ≤ ⋯ ≤ α i n i }

其中 ei e i 是一个 ni n i 维度的元素全为1的向量。同理,对于valley相关性,有:
Sβ(βi)={βiRni|eTiβi=1,β1iβ2iβnii0}(5) (5) S β ( β i ) = { β i ∈ R n i | e i T β i = 1 , β i 1 ≥ β i 2 ≥ ⋯ ≥ β i n i ≥ 0 }

Intensity smoothness:
相邻的帧的强度应该是相近的,即两者之间的差别很小,于是可得到下面的正则项:
R1(w,D)=i=1Nj,k=1niCj,ki(wTBjiwTBki)2=12wT[i=1NBi(DiCi)BTi]w=12wTLw(6) (6) R 1 ( w , D ) = ∑ i = 1 N ∑ j , k = 1 n i C i j , k ( w T B i j − w T B i k ) 2 = 1 2 w T [ ∑ i = 1 N B i ( D i − C i ) B i T ] w = 1 2 w T L w

其中, L=Ni=1Bi(DiCi)BTi L = ∑ i = 1 N B i ( D i − C i ) B i T Ci C i 是一个邻接矩阵。当 |j=k|=1 | j = k | = 1 时, Cj,ki=1 C i j , k = 1 。否则,\textbf{C}_i^{j,k}=0。 Di,ji=kCj,ki D i i , j = ∑ k C i j , k ,且 jk j ≠ k 时, Dj,ki=0 D i j , k = 0
Relevance smoothness
与前面所说的强度的变化类似,相关性的变化同样也是平滑的。相邻帧的相关性的差异应该也是很小的,由此,我们可得到关于peak bag label相似性的约束项为:
R2({αi}Ni=1,D)=i=1Nj,k=1niCj,ki(αjiαki)2=12i=1NαTi(DiCi)αi(7) (7) R 2 ( { α i } i = 1 N , D ) = ∑ i = 1 N ∑ j , k = 1 n i C i j , k ( α i j − α i k ) 2 = 1 2 ∑ i = 1 N α i T ( D i − C i ) α i

同样的,对于valley bag label,有:
R2({βi}Ni=1,D)=12i=1NβTi(DiCi)βi(8) (8) R 2 ( { β i } i = 1 N , D ) = 1 2 ∑ i = 1 N β i T ( D i − C i ) β i

Complete Formulation

综上,总的优化目标是:

minw,{αi,βi}Ni=1L(w,{αi}Ni=1,D)+λ0L0(w,{βi}Ni=1,D)+λ1R1(w,D)+λ2R2({αi}Ni=1,D)+λ3R2({βi}Ni=1,D)+λ42w2s.t.αiSα(αi),βiSβ(βi),Vi(αi+βi)=0,i=1,2,,N(9) (9) min w , { α i , β i } i = 1 N L ( w , { α i } i = 1 N , D ) + λ 0 L 0 ( w , { β i } i = 1 N , D ) + λ 1 R 1 ( w , D ) + λ 2 R 2 ( { α i } i = 1 N , D ) + λ 3 R 2 ( { β i } i = 1 N , D ) + λ 4 2 ‖ w ‖ 2 s . t . α i ∈ S α ( α i ) , β i ∈ S β ( β i ) , V i ( α i + β i ) = 0 , i = 1 , 2 , … , N

上述的约束我们没办法直接拿来求解,所以我们先进行转化。定义 ηi={η1i,η2i,,ηnii}Rni η i = { η i 1 , η i 2 , … , η i n i } ∈ R n i 表示一个segment中的相关性的增量(relevance increments),且 η0 η ≥ 0 。peak relavance可以被表示为 αi=Aηi α i = A η i Ai A i 是一个方阵,当 jk j ≥ k 时, Aj,ki=1 A i j , k = 1 ,否则 Aj,ki=0 A i j , k = 0 。同理对于valley bag label也可以定义一个类似的 ui u i 。因为上式的等价的公式为:

minw,{αi,βi}Ni=1L(w,{αi}Ni=1,D)+λ0L0(w,{βi}Ni=1,D)+λ1R1(w,D)+λ2R2({αi}Ni=1,D)+λ3R2({βi}Ni=1,D)+λ42w2s.t.ηi0,ui0eTi(Aiηi)=1,ei(ATiui)=1,Vi(Aiηi+Aiui)=0,i=1,2,,N(10) (10) min w , { α i , β i } i = 1 N L ( w , { α i } i = 1 N , D ) + λ 0 L 0 ( w , { β i } i = 1 N , D ) + λ 1 R 1 ( w , D ) + λ 2 R 2 ( { α i } i = 1 N , D ) + λ 3 R 2 ( { β i } i = 1 N , D ) + λ 4 2 ‖ w ‖ 2 s . t . η i ≥ 0 , u i ≥ 0 e i T ( A i η i ) = 1 , e i ( A i T u i ) = 1 , V i ( A i η i + A i u i ) = 0 , i = 1 , 2 , … , N

训练模型之后,我们就可以利用 y=f(x;w) y = f ( x ; w ) 来对一不知到label的帧就行强度的预测。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值