目录
一、通用图像生成评估指标
1. 分布匹配指标
-
FID(Fréchet Inception Distance)
- 原理:通过Inception-v3网络提取特征,计算生成图像与真实图像分布的距离。
- 公式:结合均值差异和协方差矩阵的迹。
- 特点:对模式坍塌敏感,需至少5万张真实图像计算。
- 局限:依赖Inception-v3的特征空间。
-
IS(Inception Score)
- 原理:衡量生成图像的多样性和清晰度。
- 公式:基于生成图像的条件概率分布与边缘分布的KL散度。
- 特点:计算简单,但无法检测过拟合。
-
KID(Kernel Inception Distance)
- 原理:基于最大均值差异(MMD)的无偏估计版本。
- 适用场景:小规模数据集评估。
2. 多样性指标
- Precision & Recall
- 定义:
- Precision:生成图像中符合真实分布的比例。
- Recall:真实分布中被生成图像覆盖的比例。
- 计算:基于特征空间的k近邻方法。
- 定义:
二、图像编辑专用指标
1. 感知相似性指标
-
LPIPS(Learned Perceptual Image Patch Similarity)
- 原理:通过预训练的深度网络(如AlexNet)提取特征,计算两图像的感知差异。
- 范围:0(完全相似)到1(完全不同)。
- 适用:语义级编辑(如风格迁移、修复)。
-
SSIM(结构相似性指数)
- 原理:从亮度、对比度、结构三个维度评估图像相似性。
- 范围:0到1(越大越好)。
- 适用:轻度编辑任务(如去噪)。
-
PSNR(峰值信噪比)
- 原理:基于像素级均方误差(MSE)的对数值。
- 范围:20-50 dB(越大越好)。
- 适用:超分辨率、图像重建等像素级任务。
2. 语义一致性指标
-
CLIP Score
- 原理:使用CLIP模型计算文本描述与生成图像的语义对齐度。
- 公式:基于余弦相似度的文本-图像嵌入匹配。
- 适用:文本引导生成/编辑任务。
-
DINO-ViT特征相似度
- 原理:利用自监督ViT模型提取的深层特征计算相似度。
- 特点:对语义变化敏感,适合复杂编辑任务。
3. 人工评估维度
- 真实性(Realism):生成图像是否逼真。
- 编辑准确性:修改内容是否与目标一致(如“将猫变成狗”)。
- 身份保持性:编辑后主体身份是否保留(如人脸编辑中的人物身份)。
三、任务特定指标
1. 图像修复(Inpainting)
- Masked PSNR:仅计算修复区域的PSNR。
- 边界一致性:修复区域与周围内容的过渡自然度。
2. 风格迁移(Style Transfer)
- 风格损失(Style Loss):通过Gram矩阵匹配风格特征。
- 内容保持损失:通过VGG网络特征保持内容结构。
3. 超分辨率(Super-Resolution)
- NRQM(无参考质量指标):无需参考图像的质量评估。
- MOS(平均主观评分):人工对图像质量打分(1-5分)。
四、工具推荐
- FID/IS计算:
torch-fidelity
库。 - LPIPS:
lpips
库(支持PyTorch)。 - CLIP Score:HuggingFace
transformers
+ OpenAI CLIP模型。 - 可视化工具:TensorBoard、Weights & Biases(W&B)。
五、指标选择指南
- 通用生成任务:FID + Precision/Recall + 人工评估。
- 文本到图像生成:CLIP Score + FID + 多样性分析。
- 语义编辑任务:LPIPS + CLIP Score + 属性分类准确率。
- 图像修复:Masked PSNR + 边界一致性 + 人工评分。
通过合理选择指标组合,可全面评估模型的生成质量、语义一致性和任务完成度。