学习记录——图文生成方向常用评价指标的具体作用、如何实现？

源客z

已于 2025-03-28 21:14:13 修改

阅读量410

点赞数 3

分类专栏：程序员学习笔记文章标签：学习

于 2025-03-28 21:10:22 首次发布

本文链接：https://blog.csdn.net/qq_51448233/article/details/146609965

版权

程序员学习笔记专栏收录该内容

4 篇文章

订阅专栏

实验停滞了一段时间，评价指标不会用？能复现出跑出图片效果，接下来就是定性定量消融对比。这是一篇关于我方向（图文生成）的常用评价指标的学习记录。还是要沉下心去多看论文，多看别的论文实验如何定性定量分析，最怕不看脑子一团浆糊，方法错了，就在错道上越走越远，时间久了，只会引起焦虑、自我怀疑，所以正确的思路方法尤为重要。

评价指标的使用就是：训练模型 → 生成图像 → 用工具计算指标 → 记录结果。

图文生成评价指标

1. 评价指标的作用

衡量生成图像的质量（是否清晰、多样）
衡量图像与输入文本的匹配度（是否符合描述）
仅在评估阶段使用，不影响模型训练

2. 使用流程

训练模型并生成图像（如 GAN、Diffusion Model）：先完成模型训练（比如用 GAN 或 Diffusion Model）。用训练好的模型，根据测试集的文本描述生成一组图像（比如 1000 张）
准备真实图像（从数据集获取）：从数据集（比如 COCO）中提取与测试文本对应的真实图像，作为对比基准。
计算评价指标（调用现成工具）：用代码调用现成的评价函数，输入生成图像和真实图像，得到指标数值。
记录和比较结果（表格对比不同方法的效果）：把每个指标的数值记下来（比如 FID = 25.3, CLIPScore = 0.85）。如果测试多个方法，用表格对比它们的指标数值。

3. 常见评价指标及用法

指标	作用	计算方式	工具
Inception Score (IS)	评估图像质量与多样性	送入 Inception V3，计算熵	PyTorch, TensorFlow
Fréchet Inception Distance (FID)	计算生成图像和真实图像的分布差异	提取 Inception V3 特征，计算均值和协方差距离	`torch-fidelity`, `pytorch-fid`
CLIPScore	计算图像与文本的匹配度	用 CLIP 计算文本-图像相似度	Hugging Face `transformers`
R-precision	评估图像匹配多个文本描述的准确率	CLIP 计算文本与图像的匹配排名	需手动实现或用开源脚本

4. 代码示例

计算 FID（PyTorch）：

from torch_fidelity import calculate_metrics
metrics = calculate_metrics(
    input1="path/to/generated_images",
    input2="path/to/real_images",
    cuda=True,
    fid=True
)
print("FID:", metrics["frechet_inception_distance"])

计算 CLIPScore（Hugging Face）：

from transformers import CLIPProcessor, CLIPModel
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
inputs = processor(text=["a dog"], images="generated_dog.jpg", return_tensors="pt")
outputs = model(**inputs)
score = outputs.logits_per_image.item()
print("CLIPScore:", score)