文章目录
- Ordinal Regression with Multiple Output CNN for Age Estimation
- 研究动机
- 方法介绍
- 参数设定
- 方法介绍
- 多输出CNN结构框架
- 数据集
- 实验
- 评估方法
- 实验结果
- 总结
Ordinal Regression with Multiple Output CNN for Age Estimation
研究动机
一方面,大多数多类分类问题,都假设类标签是相互独立的。然而,由于年龄标签是一个有序集合,因此具有很强的序数关系,这在这些多类别分类方法中没有得到利用。
另一方面,度量回归方法又将年龄标签视为数值,利用这些顺序信息进行年龄估计。本文认为,根据人的年龄,人的脸以不同的方式成熟。就是文中提到的年龄变化的非平稳性。
再者,过去由于手工特征的适应性,文中使用CNN进行端到端来进行年龄估计,这样可以从面部图像中自动学习更好的特征。
最后,本文作者提出了AFAD数据集,旨在解决缺乏大规模的年龄数据集在年龄估计研究进展的障碍。
方法介绍
参数设定
假设,第
i
i
i 张图像,输入空间
x
i
∈
X
x_i\in \mathcal{X}
xi∈X,输出空间
y
i
∈
Y
y_i \in \mathcal{Y}
yi∈Y,
Y
=
r
1
,
r
2
,
…
…
,
r
K
\mathcal{Y}={r_1,r_2,……,r_K}
Y=r1,r2,……,rK,且
r
r
r有序且
r
K
≻
r
K
−
1
≻
…
…
r
1
≻
r_K\succ r_{K-1}\succ…… r_1\succ
rK≻rK−1≻……r1≻,
≻
\succ
≻表示不同级别之间的排序。
采用cost矩阵
C
\mathcal{C}
C来计算预测秩与ground-truth秩之间的差值。文中
C
\mathcal{C}
C是一个
K
×
K
K\times K
K×K矩阵,
C
y
,
r
\mathcal{C}_{y,r}
Cy,r表示例子
(
x
,
y
)
(x,y)
(x,y)且秩为
r
r
r。且定义绝对cost矩阵定义
C
y
,
r
=
∣
y
−
r
∣
\mathcal{C}_{y,r}=\left|y-r\right|
Cy,r=∣y−r∣。
方法介绍
- 训练数据
D
=
{
x
i
,
y
i
}
i
=
1
N
D=\{x_i,y_i\}^N_{i=1}
D={xi,yi}i=1N,对于第k个二分类子问题的一个特定训练数据设为
D
=
{
x
i
,
y
i
k
,
w
i
k
}
i
=
1
N
D=\{x_i,y^k_i,w^k_i\}^N_{i=1}
D={xi,yik,wik}i=1N,其中
y
i
k
∈
{
0
,
1
}
y^k_i\in \{0,1\}
yik∈{0,1}定义为二进制类标签
y
i
y_i
yi与
r
k
r_k
rk之间的关系,如下式:
w i k w^k_i wik是第 i i i个图像的权值
- 文中采用了绝对cost矩阵,所以
∀
(
i
,
k
)
,
w
i
k
=
1
\forall(i,k),w^k_i=1
∀(i,k),wik=1。文中用CNN训练
K
−
1
K-1
K−1个二元分类器。作者在文中使用了一个多输出结构,每个输出对应一个二值分类器。
- 对于未知样本
x
′
x^\prime
x′预测如下:
f k ( x ′ ) f_k(x^\prime) fk(x′)是第k个二值分类器对于样本 x ′ x^\prime x′的训练结果。
多输出CNN结构框架
本文网络有3个卷积、3个局部相应normanzation,和2个最大池化层,然后是一个有80个神经元组成的全连接层组成。
该网络的输入部分,是将大小为
60
×
60
×
3
60\times60\times3
60×60×3的对齐后的人脸图像输入网络。本文使用的是彩色图像。
在第一个卷积层,有20个大小为
5
×
5
×
3
5\times5\times3
5×5×3卷积核,步长为1。经过局部相应normalization和最大池化操作,得到了大小为
28
×
28
×
20
28\times28\times20
28×28×20的特征映射。
第二个卷积层,有40个大小为
7
×
7
7\times7
7×7卷积核,步长为1。经过同样操作的到
11
×
11
×
40
11\times11\times40
11×11×40。
第三个卷积层,有80个大小为
11
×
11
11\times11
11×11卷积核,步长为1。经过同样操作的到
1
×
1
×
80
1\times1\times80
1×1×80。
最后,该网络分支出
K
−
1
K-1
K−1个输出层,每个输出层包含2个神经元,对应于一个二进制分类任务。第k个任务是预测第i个面部图像的年龄是否大于秩
r
k
r_k
rk。对于每个人物,采用softmax归一化交叉熵损失函数。
数据集
AFAD数据集
本文收集了一个包含164432张标签良好的照片的数据集。其中女性照片63680张,男性照片100752张,年龄在15岁到40岁之间。不同年龄的照片计数分布如图5所示。部分样品如图4所示。
实验
评估方法
MAE(Mean Absolute Error):
M
A
E
=
∑
i
=
1
n
∣
y
i
−
x
i
∣
n
MAE=\frac{\sum_{i=1}^{n}{\left|y_i-x_i\right|}}{n}
MAE=n∑i=1n∣yi−xi∣
CS(Cumulative Score):
实验结果
从表1可以看出,在两个数据集上,
‘
B
I
F
s
+
L
S
V
R
’
‘BIFs + LSVR’
‘BIFs+LSVR’比
‘
B
I
F
s
+
C
C
A
’
‘BIFs + CCA’
‘BIFs+CCA’取得了更好的性能。
总结
以现在的眼光来看,该论文使用的方法比较简陋,他提出了利用端到端深度学习方法来解决有序回归问题。现在有更好的深度学习方法,而且文中有序回归方法是一系列二值分类方法,其他分类方法也可以加入考虑方案中。