GAN的几种评价指标

最新推荐文章于 2025-02-18 15:54:30 发布

梦星魂24

最新推荐文章于 2025-02-18 15:54:30 发布

阅读量2.1w

点赞数 40

分类专栏：记录文章标签： GAN Inception Score FID

本文链接：https://blog.csdn.net/qq_35586657/article/details/98478508

版权

文章目录

介绍
考虑因素
Inception Score (IS)
Fréchet Inception Distance（FID）
其它评价标准
分析总结

介绍

前段时间 DeepMind 带来的 BigGAN 可谓轰动一时，生成了清晰且逼真的图片：
在这里插入图片描述
在各类生成模型中，GAN 是这几年比较突出的，18 年新出的 SNGAN、SAGAN 让 GAN 在 ImageNet 的生成上有了长足的进步，其中较好的 SAGAN 在 ImageNet 的128x128 图像生成上的 Inception Score (IS)达到了 52 分。BigGAN 在 SAGAN 的基础上一举将 IS 提高了 100 分，达到了166分（真实图片也才 233 分），在 FID 指标上也是有很大的超越。
丰富的背景和纹理的生成是各类生成模型追求的终极目标，对于GAN的评价指标，上面介绍到了各种论文中经常出现的IS和FID，下面就介绍一下这两种方法，以及一些其他的指标。

考虑因素

对于生成的图片，我们主要考虑两个因素：图片的清晰度；图片的多样性。
图片的清晰度不够一般是由于网络的表达能力不够，需要使用更好或者更复杂地网络结构；而图片地多样性不足则很有可能是损失函数地选取或者训练方法出了问题，常见的有mode collapsing和mode dropping。
mode collapsing： 在生成图片中会经常出现一些重复的结果，如下图红色框中的图片。
在这里插入图片描述
mode dropping： 某些mode丢失了，也导致缺乏多样性。例如下图中的人物，虽然每张都不太一样，但其实除了肤色变化，人物没有任何变化。

因此，我们对于GAN的评价指标一般都要综合评价图片的质量以及多样性，现有的方法大多都是基于样本的，即对生成样本与真实样本提取特征，然后在特征空间做距离度量。具体框架如下：
在这里插入图片描述

Inception Score (IS)

大多数关于 GAN 生成图片的论文中，作者评价其模型表现的一项重要指标是 Inception Score（IS）。其名字中 Inception 来源于 Google 的 Inception Net，因为计算这个 score 需要用到 Inception Net-V3（第三个版本的 Inception Net）。Inception Net 是图片分类网络，在 ImageNet 数据集上训练，最终预测1000个类别的概率，不需要知道实现细节，在计算IS时，直接拿来用就行了。

基本原理

IS是如何考虑清晰度和多样性的呢？
清晰度： 把生成的图片 x 输入 Inception V3 中，得到输出 1000 维的向量 y ，向量的每个维度的值对应图片属于某类的概率。对于一个清晰的图片，它属于某一类的概率应该非常大，而属于其它类的概率应该很小。用专业术语说， p(y|x) 的熵应该很小（熵代表混乱度，均匀分布的混乱度最大，熵最大）。
多样性： 如果一个模型能生成足够多样的图片，那么它生成的图片在各个类别中的分布应该是平均的，假设生成了 10000 张图片，那么最理想的情况是，1000 类中每类生成了 10 张。转换成术语，就是生成图片在所有类别概率的边缘分布 p(y) 熵很大（均匀分布）。

因此，对于IS我们需要求的两个量就是p(y|x)和 p(y)。实际中，选取大量生成样本，用经验分布模拟 p(y)：
在这里插入图片描述
而Inception Score的完整公式如下：

x~Pg ：表示从生成器中生图片。
p(y|x) ：把生成的图片 x 输入到 Inception V3，得到一个 1000 维的向量 y ，也就是该图片属于各个类别的概率分布。根据之前的假设，对于清晰的生成图片，这个向量的某个维度值格外大，

最低0.47元/天解锁文章