51c视觉~合集5

最新推荐文章于 2024-07-24 04:21:07 发布

周五mission

最新推荐文章于 2024-07-24 04:21:07 发布

点赞数

#Arc2Face

身份条件化的人脸生成基础模型，高一致性高质量的AI人脸艺术风格照生成

将人脸特征映射到SD的CLIP的编码空间，通过微调SD实现文本编码器转换为专门为将ArcFace嵌入投影到CLIP潜在空间而定制的人脸编码器

文章地址： https://arxiv.org/abs/2403.11641

项目地址： https://github.com/foivospar/Arc2Face

01 导言

今天分享一个人脸合成基础模型，主要是考虑到未来可能需要合成人脸数据或者基于此做高质量一致性的人脸生成，先Mark。

Arc2Face是一种身份条件化人脸基础模型，给定一个人的 ArcFace 嵌入，该模型可以生成多样化的照片般逼真的图像，其人脸相似度远超现有模型（比如FaceSwap、InstantID等）。

Arc2Face 以预训练的稳定扩散模型为基础，仅以 ID 向量为条件，使其适应 ID 到人脸生成的任务。训练数据上精心上采样了 WebFace42M （最大的人脸识别 (FR) 公共数据集）数据库的很大一部分，该数据集具有一致的身份和源自WebFace42M的类内变异性，然后基于此微调SD，并使用了FFHQ和CelebA-HQ微调以提高质量。

相比于最近将 ID 与文本嵌入相结合以实现文本到图像模型的零样本个性化的方法，Arc2Face强调 FR 特征的紧凑性，它可以充分捕捉人脸的本质，而不是手工制作的文本提示。

另一方面，文本增强模型很难将身份与文本区分开来，通常需要对给定的人脸进行某种描述才能实现令人满意的相似度。然而，Arc2Face 只需要 ArcFace 的判别特征来指导生成，为大量 ID 一致性至关重要的任务提供了强大的先验。例如，在Arc2Face 模型中的合成图像上训练 FR 模型，实现了优于现有合成数据集的性能。

亮点：

将人脸特征映射到SD的CLIP的编码空间，通过微调SD实现文本编码器转换为专门为将ArcFace嵌入投影到CLIP潜在空间而定制的人脸编码器

02 方法

51c视觉~合集5_编码器

图2 Arc2Face模型框架

Arc2Face框架如上，使用一个简单的设计来条件ID特征上的稳定扩散。预训练的SD作为模型的先验，ArcFace嵌入由使用冻结伪提示符的文本编码器进行处理，投影到CLIP潜在空间以进行交叉注意控制。编码器和UNet都在百万尺度FR数据集上进行了优化在上采样之后)，然后在高质量数据集上进行了额外的微调，没有任何文本注释。模型生成完全遵循id嵌入，忽略了文本Promt指导。

2.1 身份条件控制

先验模型使用stable-diffusion-v1-5，它使用CLIP文本编码器来指导图像合成。本文人脸合成的目标是在ArcFace嵌入条件下，同时直接利用其UNet的生成能力。因此，有必要将ArcFace嵌入投影到原始模型使用的CLIP嵌入的空间中。作者通过将它们输入到相同的编码器中并对其进行微调以迅速适应ArcFace输入来实现这一点

该方法提供了比用MLP代替CLIP更无缝的投影。为了确保与CLIP的兼容性，使用了一个简单的提示，“一个<id>人的照片”。

在标记化之后, 将占位符标记嵌入替换为 ArcFace 向量 , 生成一系列标记嵌入。在这里, 为匹配的维度, 是经过零填充后得到的, 生成的序列被馈送到编码器 , 该编码器将其映射到 CLIP输出空间 (其中表示标记器的最大句子长度), 如图2所示。ID信息在7的输出中的多个嵌入中共享, 为UNet提供了更详细的指导。在训练期间, 始终对所有图像使用这个默认的伪提示符。这种有意的选择将编码器的注意力完全集中在ID向量上, 而忽略了任何无关的上下文信息。因此,通过广泛的微调, 可以有效地将文本编码器转换为专门为将ArcFace嵌入投影到CLIP潜在空间而定制的人脸编码器。

2.2 数据集

使用了WebFace42M，因为它的巨大尺寸和类内可变性，然而，它受到低分辨率数据和紧面部裁剪的影响。更重要的是，预训练的SD主干是为512×512的分辨率而设计的，并且需要类似的分辨率来微调Arc2Face。为了缓解这种情况，使用GFPGAN (v1.4)对它们进行了精心的上采样，执行降解去除和4倍放大到448 × 448。考虑到计算限制，在原始数据库的很大一部分上遵循这个过程，以448 × 448像素获取1M身份的大约21M张图像，使用恢复后的图像训练Arc2Face。

尽管该数据集的质量更高，但用于FR训练的数据集仍然局限于严格裁剪的面部区域。虽然它允许预先学习一个鲁棒的ID，但通常更喜欢完整的人脸图像。因此，在FFHQ和CelebA-HQ上进一步微调，它们由较少约束的面部图像组成。最终模型生成了512 × 512像素的与ffhq对齐的图像。

03 实验结果

定量比较

51c视觉~合集5_数据集_02

可视化比较

51c视觉~合集5_编码器_03

不同合成方法的FR模型准确率比较

51c视觉~合集5_数据_04

whaosoft aiot http://143ai.com

原创作者: whaosoft 转载于: https://blog.51cto.com/whaosoft/11536996

周五mission

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
51c视觉~合集5

#Arc2Face身份条件化的人脸生成基础模型，高一致性高质量的AI人脸艺术风格照生成将人脸特征映射到SD的CLIP的编码空间，通过微调SD实现文本编码器转换为专门为将ArcFace嵌入投影到CLIP潜在空间而定制的人脸编码器文章地址：https://arxiv.org/abs/2403.11641项目地址：htt...
复制链接

扫一扫