文章链接:https://arxiv.org/pdf/2406.17100
今天和大家一起学习的是对现实生活中生成的人脸细节进行优化的工作。扩散模型(DMs)在根据文本描述生成想象力丰富的图像方面取得了显著的成功。然而,在处理现实生活中复杂细节的场景时,它们很可能会表现不佳。文本到图像生成中低质量、不真实的人脸是其中最突出的问题之一,这限制了DMs在实际应用中的广泛应用。为了解决这一问题,本文首先通过人类标注者评估了几种流行预训练DM生成的人脸质量,然后评估了现有度量方法(如ImageReward、人类偏好分数、美学评分预测器和人脸质量评估)与人类判断之间的一致性。观察到现有度量方法可能无法令人满意地量化人脸质量,开发了一种名为Face Score(FS)的新度量方法,通过在DM生成的(好、坏)人脸对数据集上便宜地应用修复流程来对ImageReward进行微调。广泛的研究表明,FS与人类评估具有较高的一致性。
另一方面,FS为改进DM生成人脸开辟了新的可能性。为了实现这一目标,在Stable Diffusion V1.5和Realistic Vision V5.1等预训练DM上引入了一个指导损失,用于在前述人脸对的去噪轨迹上进行微调。直观地说,这种损失将坏的人脸的轨迹推向好的人脸的轨迹。全面的实验验证了本文方法在提高人脸质量的同时保持了通用能力的有效性。
主要贡献:
-
首次对DMs的不良人脸问题进行了调查,并系统评估了一系列图像质量度量方法来量化人脸质量。
-
提出了Face Score来更好地量化生成的人脸质量,并显示其在比现有度量方法更高的优势。
-
提出了指导损失,用于微调DMs以生成更高质量的人脸,并在SD1.5和RV5.1上验证了其有效性。
人类对生成的人脸图像的偏好
本节首先暴露现有DMs存在的不良人脸问题,并测试现有的图像度量方法在量化合成图像的人脸质量方面的效果。然后,开发了Face Score(FS)作为一种更合格的度量方法,用于评估生成的人脸图像的合理性和美学吸引力。
不良的人脸问题
DMs在生成复杂细节,尤其是逼真的人脸和手部时遇到的困难已经不再新鲜。如下图1所示,由RV5.1和SDXL生成的图像通常包含扭曲的人脸。这个问题可能源于模型训练中人脸数据的稀缺,或者是人脸区域相对于整个图像来说很小,但需要包含复杂的细节。通常情况下,为了生成带有人脸的图像,常见做法是基于无分类器引导(CFG)技术引入负面提示,以增加生成高质量人脸的可能性。
下图2显示了与此相关的结果,可以看到负面提示确实有助于提高人脸质量,但生成的人脸仍然不令人满意。实践者可以通过基于DMs的修补技术专门重新生成人脸区域,但由于现有DMs在生成人脸方面的基本问题,生成的人脸仍可能质量较低。