你的GAN训练得如何--GAN 的召回率（多样性）和精确率（图像质量）方法评估-CSDN博客

本文提出了两个基于图像分类的指标——GAN-train 和 GAN-test，用于更准确地评估生成对抗网络（GAN）的召回率（多样性）和精确率（图像质量）。研究发现，这些指标能有效揭示GAN在不同数据集上的性能差异，且数据集复杂度与GAN质量呈负相关。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

生成对抗网络（GAN）是当今最流行的图像生成方法之一，但评估和比较 GAN 产生的图像却极具挑战性。之前许多针对 GAN 合成图像的研究都只用了主观视觉评估，一些定量标准直到最近才开始出现。本文认为现有指标不足以评估 GAN 模型，因此引入了两个基于图像分类的指标——GAN-train 和 GAN-test，分别对应 GAN 的召回率（多样性）和精确率（图像质量）。研究者还基于这两个指标评估了最近的 GAN 方法并证明了这些方法性能的显著差异。上述评估指标表明，数据集复杂程度（从 CIFAR10 到 CIFAR100 再到 ImageNet）与 GAN 质量呈负相关关系。

生成对抗网络（GAN）[19] 是由一对存在竞争关系的神经网络——生成器和判别器——组成的深度神经网络架构。通过交替优化两个目标函数训练该模型，这样可以让生成器 G 学会产生与真实图像类似的样本，还能让判别器 D 学会更好地甄别真假数据。这种范式潜力巨大，因为它可以学会生成任何数据分布。这种模型已经在一些计算机视觉问题上取得了一定成果，例如文本到图像的转换 [56] 和图像到图像的转换 [24,59]、超分辨率 [31] 以及逼真的自然图像生成 [25]。

自从提出了 GAN 模型后，近几年间出现了许多变体，如以提升生成图像质量为目的的 GAN 模型 [12,15,25,36] 和以稳定训练过程为目的的 GAN 模型 [7,9,20,34,36,40,57]。通过调整附加信息（如类别标签），GAN 还可以被修改为生成给定类别图像的网络 [16,35,37,41]。实现这一想法有许多方法：连结标签 y 和生成器的输入 z 或中间特征映射 [16,35]，使用条件批归一化 [37] 以及用辅助分类器增强鉴别器 [41]。随着这些方法的提出，有一个问题就变得重要了起来：该如何评价和比较这些模型呢？

评估和比较 GAN，或者说评估和比较 GAN 产生的图像，是一件极具挑战性的事，部分原因是缺乏明确的、在可比较概率模型中常用的似然方法 [51]。因此，之前许多针对 GAN 合成的图像的工作都只用了主观视觉评估。如图 1 所示，当前最佳 GAN 生成图像的样本 [36]，用主观评估方法无法精确评估图像质量。近两年的研究已经开始尝试通过定量方法评估 GAN[22,25,32,46]。