【GAN】用于生成图像的评价指标——IS和FID

最新推荐文章于 2025-03-17 16:25:22 发布

NooahH

最新推荐文章于 2025-03-17 16:25:22 发布

阅读量1.1w

点赞数 14

分类专栏： GAN 文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/NooahH/article/details/104102434

版权

GAN 专栏收录该内容

2 篇文章

订阅专栏

在使用GAN进行图像生成任务中，我们的目的就是为了得到高质量的生成图像，那么总得需要个度量指标来衡量生成的图像是否是“高质量”的吧？不能完全靠人眼主观判断。这里提到生成图像的“高质量”，主要从两方面考虑：

图像本身的质量。如：是否清晰，内容是否完整，是否逼真等等。
多样性。最终的生成器所生成的图像需要多种多样的，不能只生成一种或几种类型的图像，产生的这种现象称为模式崩溃（Mode collapse）。

下面介绍两个在文献中常用的评价指标，IS（Inception Score）和FID（Fréchet Inception Distance）。

一、IS（Inception Score）

Inception Score[1] 使用在ImageNet上预训练的Inception V3 Network作为分类网络，将生成器生成的图像输入到Inception V3 Network中，对该网络输出值（图像所属类别）做统计分析。
IS的计算公式如下：
$IS(G)=\exp(\mathbb{E}_{\mathbf{x}\sim p_g}D_{KL}(p(y|\mathbf{x}) || p(y))) \tag 1$
其中：

$\mathbf{x} \sim p_g$ 表示 $\mathbf{x}$ 是从 $p_g$ 中生成的图像样本。
$D_{KL}(p || q)$ 表示分布 $p$ 和 $q$ 间的KL散度（衡量两个分布间距离）。
$p(y|\mathbf{x})$ 表示在给定图像 $\mathbf{x}$ 下分类为 $y$ 的概率（ $\in [0, 1]^{1000}$ ，表示ImageNet中的1000类）。
$p(y)=\int_x p(y|\mathbf{x})p_g(x)$ ，表示类别的边缘分布。
$\exp$ 是便于比较最终计算的IS值。

IS值越大说明模型效果越好。

之所以IS公式考虑分布 $p(y|\mathbf{x})$ 和 $p (y)$ ，是出于以下两个目的[2]：

所生成图像中需要包含清楚的目标或者说 $p(y|\mathbf{x})$ 要有较低的熵。 $p(y|\mathbf{x})$ 反映出图片的生成质量，概率值越大，说明生成的图像属于 $y$ 类的可能性越高，也就表明生成的质量越高。最理想的情况是分布 $p(y|\mathbf{x})$ 集中在某一值，即该分布的熵很低。因此， $p(y|\mathbf{x})$ 的熵越低，生成图像的质量越好。
生成器要能生成ImageNet中多种类型的图像，保持多样性或者说 $p (y)$ 要有较高的熵。 $p (y)$ 指的是生成图像的类别分布，假如有 $n$ 类，理想情况是 $p(y_1)=p(y_2)=\cdots=p(y_n)=1 / n$ ，即类别分布是一个均匀分布，这时具有较高的熵。因此， $p (y)$ 的熵越高，生成图像的多样性越好。

如果满足上述两个特性，我们想要 $p(y|\mathbf{x})$ 和 $p (y)$ 的KL散度越大，从IS公式中看出IS值也越大。我们从推导中来看一看IS如何与 $p(y|\mathbf{x})$ 和 $p (y)$ 的熵联系起来的。这里直接附上文献[2]中的证明过程，对公式(1)左右两边取 $l n$ ：
在这里插入图片描述
而互信息（Mutual Information） $I(y;\mathbf{x})$
$I(y;\mathbf{x})=H(y)-H(y|\mathbf{x}) \tag 2$
因此
$ln(IS(G))=H(y)-H(y|\mathbf{x}) \tag 3$
由(3)式我们就可以轻易看出， $p (y)$ 的熵越大， $p(y|\mathbf{x})$ 的熵越小，IS值越大。

实际计算：
先利用模型生成若干图片 $\mathbf{x}^{i}$ 来计算先验类别边缘分布 $\hat{p}(y)$ ：
$\hat{p}(y)=\frac{1}{N} \sum_{i=1}^{N}p(y|\mathbf{x}^{i}) \tag 4$
其中 $N$ 表示由模型生成的样本图片数目。之后可以求 $I S (G)$ 的近似值：
$\approx \exp \Big(\frac{1}{N} \sum_{i=1}^{N} D_{KL}(p(y|\mathbf{x}^{i})||\hat{p}(y))\Big) \tag 5$
对每张图像计算 $p(y|\mathbf{x}^{i})$ ，再求它与 $\hat{p}(y)$ 的KL散度，再取平均、取指数。
在计算最终IS时，通常在 $N = 5000$ 下计算10次，再计算IS值的均值和标准差。

缺点：[2]

IS计算公式没有考虑真实图像（Ground Truth），不能反映出生成图像与真实图像是否相近[3]。
由于使用Inception Network，为此对网络权重变化较敏感。（不同深度学习框架中内置的Inception V3网络权重有细微不同，计算得到的IS会有差距。）
在利用ImageNet以外的数据集计算IS时，没什么意义。（Inception V3是在ImageNet下训练的，而待评估的生成模型是在其他数据集上生成的，这种跨数据集计算IS是不正确的。这就需要分类模型和生成模型都在同一数据集上训练而来，才能得到可用于比较的IS。）

IS弊端还是不少的，下文的FID可以克服上述缺点。

补充知识点
互信息（Mutual Information）度量的是两个随机变量间相互依赖的程度。
假设有两个随机变量 $X$ 和 $Y$ ，它们的互信息定义为：
$I(X;Y)=\sum_{x\in X} \sum_{y\in Y}p(x,y)\log\Big(\frac{p(x,y)}{p(x)p(y)}\Big)$
其中 $p (x, y)$ 是随机变量 $X$ 和 $Y$ 的联合概率分布， $p (x)$ 和 $p (y)$ 分别是 $X$ 和 $Y$ 的边缘概率分布。
性质：

当 $X$ 和 $Y$ 相互独立时， $p (x, y) = p (x) p (y)$ ， $I (X; Y) = 0$ 。
互信息是非负的，对称的。

再介绍下条件熵（Conditional Entropy）。给定随机变量 $X$ 的条件下，随机变量 $Y$ 的条件熵定义为：
$\begin{aligned} H(Y|X) &= \sum_{x\in X}p(x)H(Y|X=x) \\ &=\sum_{x\in X}p(x) \big[-\sum_{y\in Y}p(y|x)\log p(y|x)\big] \\ &=-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log p(y|x) \end{aligned}$
那么，有：
$\begin{aligned} I(X;Y)&=\sum_{x\in X} \sum_{y\in Y}p(x,y)\log(\frac{p(x,y)}{p(x)p(y)}) \\ &=\sum_{x\in X} \sum_{y\in Y}p(x,y)\log (\frac{p(x|y)}{p(x)}) \\ &=\sum_{x\in X} \sum_{y\in Y}p(x,y)\log p(x|y) - \sum_{x\in X} \sum_{y\in Y}p(x,y)\log p(x) \\ &= -H(X|Y)- \sum_{x\in X} \Big( \sum_{y\in Y}p(x,y) \Big) \log p(x)\\ &=-H(X|Y)- \sum_{x\in X} p(x)\log p(x) \\ &=-H(X|Y)+H(X) \\ &=H(X)-H(X|Y) \\ &=H(Y)-H(Y|X) \end{aligned}$
互信息的含义：
我们以 $I (X; Y) = H (X) - H (X ∣ Y)$ 为例，互信息即在测量引入 $Y$ 之后导致的 $X$ 的不确定性减少的程度。互信息越大，说明 $X$ 和 $Y$ 间关系越强；反小， $X$ 和 $Y$ 越趋于相互独立。

下面给出互信息、条件熵、联合熵间的韦恩图：
在这里插入图片描述
有关更详细内容，请移步：信息论 – 熵与互信息和什么是「互信息」？

二、FID（Fréchet Inception Distance）

FID（Fréchet Inception Distance）[4]是用来计算真实图像与生成图像的特征向量间距离的一种度量，这里的特征向量是由Inception v3 Network得到的。Inception v3 Network是一个分类网络，网络结构的最后两层为全连接层，以得到 $1 * 1 * 1000$ 分类向量，而FID采用的是倒数第二个全连接层的输出 $1 * 1 * 2048$ 维图像特征向量用于距离度量。
我们用这个距离来衡量真实图像和生成图像的相似程度，如果FID值越小，则相似程度越高。最好情况即是FID=0，两个图像相同。

FID值越小说明模型效果越好。

假设真实分布 $P_r$ 和生成分布 $P_g$ 建模为多维高斯分布，参数分别为 $(\mu_r, \Sigma_r)$ 和 $(\mu_g, \Sigma_g)$ ，其中 $\mu$ 和 $\Sigma$ 分别为均值向量和协方差矩阵。FID的计算公式为：
$d^2 \big( (\mu_r, \Sigma_r), (\mu_g, \Sigma_g) \big)=\Vert \mu_r - \mu_g \Vert^2 + Tr \big( \Sigma_r + \Sigma_g - 2(\Sigma_r \Sigma_g)^{\frac{1}{2}} \big)$
其中 $T r$ 表示矩阵的迹（矩阵对角元之和）。

实际计算：
那在计算FID时呢，一般性我们假设特征向量维数为 $n$ ，那么均值向量 $\mu$ 的维数为 $n$ ，协方差矩阵 $\Sigma$ 的维数为 $n * n$ 。首先分别选取真实图像和生成图像各 $N$ 张，计算得到的特征向量有 $N * n$ 维，之后分别计算这 $N$ 个样本对应的均值向量 $\mu$ 和协方差矩阵 $\Sigma$ ，即得到了真实分布 $P_r$ 和生成分布 $P_g$ 对应的参数。详细计算代码可参考：How to Implement the Frechet Inception Distance (FID) for Evaluating GANs