人脸表征学习

文章探讨了如何将人脸数据与视觉基础模型结合,介绍了三篇关于面部表征学习的研究,包括无监督、弱监督和自监督预训练方法,以及在人脸任务如识别、分割等中的迁移效果。发现预训练模型在数据稀缺情况下优于从头开始训练,且通用表征在某些任务中表现出有效性。
摘要由CSDN通过智能技术生成

Visual foundation model 泛指在大规模数据上(形式包括但不限于图像、视频、图文对等)进行无监督、自监督、有监督预训练得到的模型。基于预训练阶段学习到的通用视觉表征,我们可以通过微调迁移到其他下游任务,譬如图像分类、目标检测、分割、图像生成等多种视觉任务。

人脸相关任务一直是视觉领域应用最广泛的任务,但近年来对于人脸表征学习的关注度却有所下降。怎样把人脸数据和视觉表征大模型进行有机结合是一个不错的研究方向。调研发现了三篇人脸表征学习相关的工作如下:

  • [ECCV 2022] Pre-training strategies and datasets for facial representation learning
    • 很早就挂在arxiv上的一篇文章(2019?),所以实验模型还是用的 resnet 系列;也是看到第一个做 facial representation learning 的工作。通过无监督学习训练人脸表征模型,再在 low data regime 设定下通过增加不同的 head 分别迁移到 5 个人脸任务上(ID识别、关键点、表情、3D重建、动作单元识别);
      • 无监督预训练方法上,采用了 swav/moco-v2;也对比了有监督预训练(imagenet);
      • 迁移方法上,对比了“预训练模型 finetuning”以及“linear adaptation”以及“基于self-distillation的半监督学习”;linear adaptation 效果很差,但在另外两篇工作中都采用了「freeze backbone+更复杂的 head」方式以此证明通用表征的有效性;
    • 如果只看识别指标,在「下游任务监督数据有限」的前提下(表四中2%/10%实验组), 预训练模型 finetune 比 train-from-scratch 好很多;但整体水位都很低;
    • 最后结论也提到,并不是所有任务都能通过少量数据 finetune 达到好的效果,识别不可以,但是在其他四个任务可以。

  • [CVPR 2022] General Facial Representation Learning in a Visual-Linguistic Manner
    • 这篇构建了一个人脸的 image-text pair 数据集 LAION-FACE (20M);也是在人脸数据域上的首个弱监督预训练工作;同样是在 low-data-regime 前提下,通过在 ViT backbone 上增加不同 head 分别迁移到 face parsing/face alignment/face attributes recognition 任务上;
      • 预训练方法,把 image-text-pair 和 mask-image-modeling 结合在一起;image-text-contrastive learning 学习high-level semantic feature,而 mask-image-modeling 学习 low-level feature;
      • 下游任务迁移方法,image encoder(pretrained backbone)保持不变,encoder 选取不同 layer token output 再加上一个 task-specific head,只训练 head;

  • [ACM MM 2023] Toward High Quality Facial Representation Learning
    • 不同于 CVPR2022 那篇利用 image-text-pair 弱监督训练;这篇文章提出了纯图片的自监督训练框架。方法上也是集合了各种自监督学习策略,包括 mask image modeling、self-distillation、contrastive learning。
    • 预训练数据集是在 LAION-FACE 基础上再次加工(人脸检测+人脸矫正, LAION-FACE-cropped, 256*256)得到。
    • 下游迁移任务是 face alignment 和 face parsing。迁移时没有考虑 few-shot learning,而是在下游任务数据集进行全量训练。从实验效果来看,在两个迁移任务上预训练都获得了更高指标,证明人脸表征有效性。

ECCV 2022CVPR 2022MM 2023
数据集Flickr Face (uncurated)LAION-FACELAION-FACE-cropped
预训练数据形式ImageImage-TextImage
预训练方法swav/moco-v2 无监督弱监督(image-text-contrastive+MIM)自监督(self-distillation+MIM+contrastive learning)
迁移方法linear adaptation (很差)、预训练模型初始化+fulltunefreeze backbone + finetune task-specific headfreeze backbone + finetune task-specific head (UperNet)
通用表征选取/shallow-to-deep 地选择多个 layer 特征(4/6/8/12)构成 feature pyramid;在每个 layer 中还要对 cls、patch tokens 进行融合;shallow-to-deep 地选择多个 layer 特征(2/4/8/12)构成 feature pyramid;在每个 layer 中还要对 cls、patch tokens 进行融合;
few-shot learning
下游迁移任务face recognition/face alignment/3D reconstruction/action unit recognition/ emotion recognitionface parsing/face alignment/face attributes recognitionface parsing/face alignment

因为后两篇都是 ViT-B 结构,所以替换 CLIP image encoder 测试了下人脸描述的准确性,的确比 official CLIP 的准确度更高;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值