Ordinal Regression with Multiple Output CNN for Age Estimation-(系列一_年龄估计)

本文探讨了年龄估计问题,指出传统的多类别分类方法忽视了年龄标签的序数关系。通过引入多输出CNN结构,利用绝对cost矩阵进行有序回归,解决了年龄变化的非平稳性。提出的AFAD数据集促进了年龄估计研究。实验表明,该方法在年龄估计上优于其他技术,为后续深度学习方法奠定了基础。
摘要由CSDN通过智能技术生成

文章目录

  • Ordinal Regression with Multiple Output CNN for Age Estimation
    • 研究动机
    • 方法介绍
      • 参数设定
      • 方法介绍
      • 多输出CNN结构框架
    • 数据集
    • 实验
      • 评估方法
      • 实验结果
    • 总结

Ordinal Regression with Multiple Output CNN for Age Estimation

在这里插入图片描述

研究动机

一方面,大多数多类分类问题,都假设类标签是相互独立的。然而,由于年龄标签是一个有序集合,因此具有很强的序数关系,这在这些多类别分类方法中没有得到利用。
另一方面,度量回归方法又将年龄标签视为数值,利用这些顺序信息进行年龄估计。本文认为,根据人的年龄,人的脸以不同的方式成熟。就是文中提到的年龄变化的非平稳性。
再者,过去由于手工特征的适应性,文中使用CNN进行端到端来进行年龄估计,这样可以从面部图像中自动学习更好的特征。
最后,本文作者提出了AFAD数据集,旨在解决缺乏大规模的年龄数据集在年龄估计研究进展的障碍。

方法介绍

参数设定

假设,第 i i i 张图像,输入空间 x i ∈ X x_i\in \mathcal{X} xiX,输出空间 y i ∈ Y y_i \in \mathcal{Y} yiY Y = r 1 , r 2 , … … , r K \mathcal{Y}={r_1,r_2,……,r_K} Y=r1,r2,,rK,且 r r r有序且 r K ≻ r K − 1 ≻ … … r 1 ≻ r_K\succ r_{K-1}\succ…… r_1\succ rKrK1r1 ≻ \succ 表示不同级别之间的排序。
采用cost矩阵 C \mathcal{C} C来计算预测秩与ground-truth秩之间的差值。文中 C \mathcal{C} C是一个 K × K K\times K K×K矩阵, C y , r \mathcal{C}_{y,r} Cy,r表示例子 ( x , y ) (x,y) (x,y)且秩为 r r r。且定义绝对cost矩阵定义 C y , r = ∣ y − r ∣ \mathcal{C}_{y,r}=\left|y-r\right| Cy,r=yr

方法介绍

  1. 训练数据 D = { x i , y i } i = 1 N D=\{x_i,y_i\}^N_{i=1} D={xi,yi}i=1N,对于第k个二分类子问题的一个特定训练数据设为 D = { x i , y i k , w i k } i = 1 N D=\{x_i,y^k_i,w^k_i\}^N_{i=1} D={xi,yik,wik}i=1N,其中 y i k ∈ { 0 , 1 } y^k_i\in \{0,1\} yik{0,1}定义为二进制类标签 y i y_i yi r k r_k rk之间的关系,如下式:
    在这里插入图片描述
    w i k w^k_i wik是第 i i i个图像的权值
    在这里插入图片描述
  2. 文中采用了绝对cost矩阵,所以 ∀ ( i , k ) , w i k = 1 \forall(i,k),w^k_i=1 (i,k),wik=1。文中用CNN训练 K − 1 K-1 K1个二元分类器。作者在文中使用了一个多输出结构,每个输出对应一个二值分类器。
    有序回归和CNN多重输出
  3. 对于未知样本 x ′ x^\prime x预测如下:
    在这里插入图片描述
    f k ( x ′ ) f_k(x^\prime) fk(x)是第k个二值分类器对于样本 x ′ x^\prime x的训练结果。

多输出CNN结构框架

本文网络有3个卷积、3个局部相应normanzation,和2个最大池化层,然后是一个有80个神经元组成的全连接层组成。
在这里插入图片描述
该网络的输入部分,是将大小为 60 × 60 × 3 60\times60\times3 60×60×3的对齐后的人脸图像输入网络。本文使用的是彩色图像。
在第一个卷积层,有20个大小为 5 × 5 × 3 5\times5\times3 5×5×3卷积核,步长为1。经过局部相应normalization和最大池化操作,得到了大小为 28 × 28 × 20 28\times28\times20 28×28×20的特征映射。
第二个卷积层,有40个大小为 7 × 7 7\times7 7×7卷积核,步长为1。经过同样操作的到 11 × 11 × 40 11\times11\times40 11×11×40
第三个卷积层,有80个大小为 11 × 11 11\times11 11×11卷积核,步长为1。经过同样操作的到 1 × 1 × 80 1\times1\times80 1×1×80
最后,该网络分支出 K − 1 K-1 K1个输出层,每个输出层包含2个神经元,对应于一个二进制分类任务。第k个任务是预测第i个面部图像的年龄是否大于秩 r k r_k rk。对于每个人物,采用softmax归一化交叉熵损失函数。

数据集

AFAD数据集
本文收集了一个包含164432张标签良好的照片的数据集。其中女性照片63680张,男性照片100752张,年龄在15岁到40岁之间。不同年龄的照片计数分布如图5所示。部分样品如图4所示。
在这里插入图片描述
在这里插入图片描述

实验

评估方法

MAE(Mean Absolute Error):
M A E = ∑ i = 1 n ∣ y i − x i ∣ n MAE=\frac{\sum_{i=1}^{n}{\left|y_i-x_i\right|}}{n} MAE=ni=1nyixi
CS(Cumulative Score):
在这里插入图片描述

实验结果

从表1可以看出,在两个数据集上, ‘ B I F s + L S V R ’ ‘BIFs + LSVR’ BIFs+LSVR ‘ B I F s + C C A ’ ‘BIFs + CCA’ BIFs+CCA取得了更好的性能。
在这里插入图片描述

总结

以现在的眼光来看,该论文使用的方法比较简陋,他提出了利用端到端深度学习方法来解决有序回归问题。现在有更好的深度学习方法,而且文中有序回归方法是一系列二值分类方法,其他分类方法也可以加入考虑方案中。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值