[论文评析]Deep Cost-Sensitive and Order-Preserving Feature Learning for Cross-Population Age Estimation,

MasterQKK 被注册

已于 2022-10-10 17:09:40 修改

阅读量429

点赞数

分类专栏：前沿介绍 Computer Vision 文章标签：深度学习机器学习人工智能

于 2022-10-10 17:08:08 首次发布

本文链接：https://blog.csdn.net/QKK612501/article/details/127230880

版权

前沿介绍同时被 2 个专栏收录

26 篇文章 6 订阅

订阅专栏

Computer Vision

9 篇文章 1 订阅

订阅专栏

Deep Cost-Sensitive and Order-Preserving Feature Learning for Cross-Population Age Estimation

文章信息
背景
动机
方法
总结
References

文章信息

题目: Deep Cost-Sensitive and Order-Preserving Feature Learning for Cross-Population Age Estimation
发表: CVPR 2018
作者: Kai Li, Junliang Xing, Chi Su, Weiming Hu, Yundong Zhang, Stephen Maybank

背景

人脸年龄的识别问题（Facial age estimation）一直是CV这块比较热的研究问题之一。简单来说：就是训练这样一个模型，希望在任意给定的Facial image，模型都能比较准确的预测其年龄。该问题在互联网等领域具有实际意义。

该问题的难点在于：不同的种族/肤色/区域人群的facial image的视觉模型存在差异。
以往的研究往往都是在单个人群population这一假定或者说给定域的前提下进行的，这类模型存在的问题是一旦将其模型应用到其他population，模型的性能会变得很差。并且，采集和标注数据本身成本很高。

动机

为了利用其他域的数据来帮助目标域的学习，同时学习更加general的跨域模型进行age estimation, 作者首次提出了一种迁移学习框架来学习跨域的年龄估计模型。具体来说，假定源域有大量label data, 目标域有少量labeled data，作者提出了两阶段的学习策略：第一个阶段作者基于ranking formulation将age estimation最终建模为一个cost-sensitive multitask learning 问题用于学习可迁移的features，第二个阶段，作者提出了所谓的order preserving loss用来进行source population -> target population的迁移从而完成源域与目标域年龄特征的对其。

方法

问题定义

假定源域数据： $X^{s}=\{(X^{s}_{i}, y^{s}_{i})\}_{i=1}^{N^{s}}$ ,
目标域数据： $X^{t}=\{(X^{t}){i}, y^{t}_{i})\}_{i=1}^{N^{t}}$
其中 $y^{t}_{i}, y^{s}_{i}\in \{1,2,...,K\}$ , $N^{t}<N^{s}$ ,K表示age范围的上限；
目的：基于少量的target domain数据，同时借助源域的数据学习一个model，使其对target domain上的facial image年龄预测准确。

简单来看，该问题可以看作是一个K个类别的分类问题，然而这样一来的话，K个age label变成了K个孤立地类别标记，这会丢失大量的信息，因为age本来是可比较的。若将其建模为回归问题，则很容易出现过拟合的问题。为了充分利用age间的信息，将age estimation建模为一个ranking problem。ranking问题实际上并不好直接优化，因此，ranking problem被进一步建模为一系列的binary classification问题。

假定数据集 $X$ , 对于给定的rank/age— $k$ ， $X$ 可以被拆分为两部分：
在这里插入图片描述利用该拆分的数据集可以训练一个二元分类器 $f_{k}$ ，该分类器的功能是预测给定输入的age是否>k. 遍历 $k\in\{1,2,...,K-1\}$ ，总共可以得到K-1个这样的二元分类器 ${f_{k}\}_{k=1}^{K-1}$ 。

这样一来，给定测试image— $\bar{X}$ , 其最终的预测可以通过聚合这K-1个classifiers的结果得到，如下：
在这里插入图片描述
在该ranking formulation下可以将数据集 ${(X_{i}, y_{i})\}_{i=1}^{N}$ 改写为 $\{(X_{i}, \textbf{y}_{i})\}_{i=1}^{N}$ 的形式， $KaTeX parse error: Undefined control sequence: \nR at position 15: \textbf{y}_{i}\̲n̲R̲^{K-1}$ , 其中 $y^{(k)}_{i}$ 的定义如下：
在这里插入图片描述
所提的两阶段方法分别是： (1) Cost-sensitive feature learning; (2)Order-preserving feature alignment, 下面分别作以介绍。

阶段1：Cost-sensitive feature learning

基于上述的ranking formulation， 第一个阶段的目标是从源域中学习更加transferable的特征。

网络结构

网络结构如下图所示，网络可以堪称两部分：前半部分为特征学习网络，由3个卷积池化层串联而成，后半部分为任务网络，由2个全连接层组成，最后有K-1个分支节点，对应K-1个binary classifier ${f_{k}\}_{k=1}^{K-1}$ 。
在这里插入图片描述

cost-sensitive multitask loss

基于上述的ranking formulation， 在设计损失函数时有如下考量，
(1) 对于ground-truth为 $y$ 的样本 $X$ , K-1个classifiers中，距离y越远(远近可以用|k-y|来衡量)的classifier $f_{k}$ ，其预测错误的后果越严重，因此应受到更大的惩罚。
(2) 参数的正则化

基于此，损失函数的形式为：
在这里插入图片描述其中 $cost_{k}(y_{i})$ 表示第 $k$ 个classifier将ground-truth为 $y_{i}$ 的样本误分类的代价，其定义如下：

可以看到第一项为cost-sensitive binary cross-entropy loss，后面4项分别为卷积层参数、输出层、两个全连接层参数的正则化项。

阶段2：Order-preserving feature alignment

第二个阶段的目的是：将source domain和target domain的高级aging features对其到一个能够捕捉/刻画人类年龄顺序特征的人口不变空间。

动机

如下图所示，在原始的特征空间中，源域的不同age的特征表示无法体现其对应age之间的序关系，并且源域域目标域样本的age序关系也无法体现在其相应的特征表示中。我们的目的是希望学到这样一个人口不变特征空间表示：年龄age相近的human images对应的特征表示也更加相近，反之，age距离越大的human images对应的特征表示更远。
在这里插入图片描述

Order-preserving feature alignment

损失的设计遵循以下原则：
(1) age相同的源域、目标域样本的特征表示应该越接近越好，age不同的源域、目标域样本的特征表示应该尽可能远；
(2) age差异越大的源域、目标域样本的特征表示应该越远。

**那么如何衡量样本特征表示的接近程度呢？**文中使用了F范数：
$d(\hat{x}^{s}_{i}, \hat{x}^{t}_{j})=|| \hat{x}^{s}_{i} - \hat{x}^{t}_{j} ||^{2}_{F}$

**如何根据age之间的差异来控制惩罚的力度呢？**作者采用了如下基于高斯分布的计算形式，
在这里插入图片描述
假定源域数据： $\{(X^{s}_{i}, y^{s}_{i})\}_{i=1}^{N^{s}}$ , 目标域数据： $\{(X^{t}){i}, y^{t}_{i})\}_{i=1}^{N^{t}}$ ，则可以基于来自源域、目标域的成对样本定义如下损失：

Order-preserving feature alignment作用的职官表示形式如下图所示：
在这里插入图片描述

总结

虽然这篇文章是在迁移学习框架下解决cross population的问题，但是值得一提的是，在已有的大量相关文献中age estimation是被作为一个imbalanced regression问题进行研究的，这篇文章的ranking formulation应该能够克服imbalanced的问题，感觉着这一块值得进一步去探索；
原本是一个ranking problem，作者将其进一步简化成了多个binary classifiers，这么多的分类器。。。。；
order-preserving feature alignment loss是基于启发式方法设计的，不够优雅，应该有更好的方法来解决feature alignment的问题;

References

1.Li, Kai, et al. “Deep cost-sensitive and order-preserving feature learning for cross-population age estimation.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.