Visual foundation model 泛指在大规模数据上(形式包括但不限于图像、视频、图文对等)进行无监督、自监督、有监督预训练得到的模型。基于预训练阶段学习到的通用视觉表征,我们可以通过微调迁移到其他下游任务,譬如图像分类、目标检测、分割、图像生成等多种视觉任务。
人脸相关任务一直是视觉领域应用最广泛的任务,但近年来对于人脸表征学习的关注度却有所下降。怎样把人脸数据和视觉表征大模型进行有机结合是一个不错的研究方向。调研发现了三篇人脸表征学习相关的工作如下:
- [ECCV 2022] Pre-training strategies and datasets for facial representation learning
- 很早就挂在arxiv上的一篇文章(2019?),所以实验模型还是用的 resnet 系列;也是看到第一个做 facial representation learning 的工作。通过无监督学习训练人脸表征模型,再在 low data regime 设定下通过增加不同的 head 分别迁移到 5 个人脸任务上(ID识别、关键点、表情、3D重建、动作单元识别);
- 无监督预训练方法上,采用了 swav/moco-v2;也对比了有监督预训练(imagenet);
- 迁移方法上,对比了“预训练模型 finetuning”以及“linear adaptation”以及“基于self-distillation的半监督学习”;linear adaptation 效果很差,但在另外两篇工作中都采用了「freeze backbone+更复杂的 head」方式以此证明通用表征的有效性;
- 如果只看识别指标,在「下游任务监督数据有限」的前提下(表四中2%/10%实验组), 预训练模型 finetune 比 train-from-scratch 好很多;但整体水位都很低;
- 最后结论也提到,并不是所有任务都能通过少量数据 finetune 达到好的效果,识别不可以,但是在其他四个任务可以。
- 很早就挂在arxiv上的一篇文章(2019?),所以实验模型还是用的 resnet 系列;也是看到第一个做 facial representation learning 的工作。通过无监督学习训练人脸表征模型,再在 low data regime 设定下通过增加不同的 head 分别迁移到 5 个人脸任务上(ID识别、关键点、表情、3D重建、动作单元识别);
- [CVPR 2022] General Facial Representation Learning in a Visual-Linguistic Manner
- 这篇构建了一个人脸的 image-text pair 数据集 LAION-FACE (20M);也是在人脸数据域上的首个弱监督预训练工作;同样是在 low-data-regime 前提下,通过在 ViT backbone 上增加不同 head 分别迁移到 face parsing/face alignment/face attributes recognition 任务上;
- 预训练方法,把 image-text-pair 和 mask-image-modeling 结合在一起;image-text-contrastive learning 学习high-level semantic feature,而 mask-image-modeling 学习 low-level feature;
- 下游任务迁移方法,image encoder(pretrained backbone)保持不变,encoder 选取不同 layer token output 再加上一个 task-specific head,只训练 head;
- 这篇构建了一个人脸的 image-text pair 数据集 LAION-FACE (20M);也是在人脸数据域上的首个弱监督预训练工作;同样是在 low-data-regime 前提下,通过在 ViT backbone 上增加不同 head 分别迁移到 face parsing/face alignment/face attributes recognition 任务上;
- [ACM MM 2023] Toward High Quality Facial Representation Learning
- 不同于 CVPR2022 那篇利用 image-text-pair 弱监督训练;这篇文章提出了纯图片的自监督训练框架。方法上也是集合了各种自监督学习策略,包括 mask image modeling、self-distillation、contrastive learning。
- 预训练数据集是在 LAION-FACE 基础上再次加工(人脸检测+人脸矫正, LAION-FACE-cropped, 256*256)得到。
- 下游迁移任务是 face alignment 和 face parsing。迁移时没有考虑 few-shot learning,而是在下游任务数据集进行全量训练。从实验效果来看,在两个迁移任务上预训练都获得了更高指标,证明人脸表征有效性。
ECCV 2022 | CVPR 2022 | MM 2023 | |
---|---|---|---|
数据集 | Flickr Face (uncurated) | LAION-FACE | LAION-FACE-cropped |
预训练数据形式 | Image | Image-Text | Image |
预训练方法 | swav/moco-v2 无监督 | 弱监督(image-text-contrastive+MIM) | 自监督(self-distillation+MIM+contrastive learning) |
迁移方法 | linear adaptation (很差)、预训练模型初始化+fulltune | freeze backbone + finetune task-specific head | freeze backbone + finetune task-specific head (UperNet) |
通用表征选取 | / | shallow-to-deep 地选择多个 layer 特征(4/6/8/12)构成 feature pyramid;在每个 layer 中还要对 cls、patch tokens 进行融合; | shallow-to-deep 地选择多个 layer 特征(2/4/8/12)构成 feature pyramid;在每个 layer 中还要对 cls、patch tokens 进行融合; |
few-shot learning | 是 | 是 | 否 |
下游迁移任务 | face recognition/face alignment/3D reconstruction/action unit recognition/ emotion recognition | face parsing/face alignment/face attributes recognition | face parsing/face alignment |
因为后两篇都是 ViT-B 结构,所以替换 CLIP image encoder 测试了下人脸描述的准确性,的确比 official CLIP 的准确度更高;