【Stable Diffusion】FID、CLIP、cfg-scales都是什么

文章讨论了stable-diffusion仓库中模型的评估指标,包括FIDscore(衡量生成图像与真实图像分布的相似性),Clipscore(通过CLIP模型计算图像与文本的匹配度),以及CFGScale(调整生成图片与提示词相关性的超参数)。FIDscore越低表示图像质量越高,Clipscore越高则相关性越强,而适中的CFGScale能平衡图像质量和提示相关性。
摘要由CSDN通过智能技术生成

stable-diffusion 仓库中,是这样评价模型的。

Evaluations with different classifier-free guidance scales (1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0) and 50 PLMS sampling steps show the relative improvements of the checkpoints,

对应了这张图
在这里插入图片描述

图里的FID score 、Clip score 和 cfg-scales 都是什么意思呢?

FID score

FID(Fréchet Inception Distance ) score 是一种用于评估生成图像质量的度量标准,专门用于评估模型生成图片的性能,计算公式如下所示:

F I D ( p , q ) = ∣ ∣ μ p − μ q ∣ ∣ 2 2 + T r ( C p + C q − 2 C p C q ) \mathrm{FID}(p, q) = ||\mu_p - \mu_q||_2^2 + \mathrm{Tr}(C_p + C_q - 2\sqrt{C_pC_q}) FID(p,q)=∣∣μpμq22+Tr(Cp+Cq2CpCq )

其中, p p p 表示真实图像的分布, q q q 表示生成图像的分布, μ p \mu_p μp μ q \mu_q μq 分别表示两个分布的特征向量的均值, C p C_p Cp C q C_q Cq 分别表示两个分布的特征向量的协方差矩阵。 T r \mathrm{Tr} Tr 表示矩阵的迹运算, ∣ ∣ ⋅ ∣ ∣ 2 ||\cdot||_2 ∣∣2 表示欧几里得范数。

具体来说, FID ⁡ \operatorname{FID} FID首先用 Inception network提取真实数据和生成数据的特征向量,然后计算这两个特征向量集合的均值 μ 1 \mu_1 μ1, μ 2 \mu_2 μ2 和协方差矩阵 Σ 1 \Sigma_1 Σ1 , Σ 2 \Sigma_2 Σ2。最后计算上述公式得到 FID ⁡ \operatorname{FID} FID值。

FID ⁡ \operatorname{FID} FID 值越低代表两个分布越相似,生成的数据与真实数据分布越相似。

Clip score

Clip score是指将文本和图像对输入到OpenAI的CLIP(Contrastive Language-Image Pre-training)模型后分别转换为特征向量,然后计算它们之间的余弦相似度。当CLIP Score较高时,图像-文本对之间的相关性更高。CLIP Score评估自然语言和图像对之间的匹配度和相关性。值越大(接近1),评估越高。原始论文点这里
在这里插入图片描述

CFG Scale

CFG Scale 是Classifier Free Guidance Scale 的缩写,代表提示词相关性。增加这个值将导致图像更接近你的提示,但过高会让图像色彩过于饱和,太高后在一定程度上降低了图像质量。可以适当增加采样步骤来抵消画质的劣化。一般在5~15之间为好,7,9,12是3个常见的设置值。

总结

FID score 计算生成的图像与原始图像的距离,越小越好。
Clip score 计算生成的图像与提示词之间的相关性,越大越好。
CFG Scale 是超参数,用于调整生成图片与提示词的相关性。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值