SR常用的评价指标

brilliantii

已于 2022-05-14 16:42:49 修改

阅读量2.8k

点赞数 2

文章标签：计算机视觉深度学习机器学习超分辨率重建

于 2022-05-14 16:36:49 首次发布

本文链接：https://blog.csdn.net/qq_44132116/article/details/124769906

版权

文章目录

1. PSNR（Peak Signal to Noise Ratio，峰值信噪比）
2. SSIM（Structure Similarity Index Measure，结构相似性评价）
3. Lpips（Learned Perceptual Image Patch Similarity，图像感知相似度指标）
4. NIQE（Natural Image Quality Evaluator，自然图像质量评估）
5. IS（Inception Score，一般在SR里不用）
6. FID（The Fréchet inception distance, Fréchet初始距离）
7. KID（Kernel Inception Distance）
8. 找到北京大学一个有关deep generative model课程，值得观看：

1. PSNR（Peak Signal to Noise Ratio，峰值信噪比）

PSNR经常用作图像压缩等领域中信号重建质量的测量方法，它常简单地通过均方差（MSE）进行定义，其中，MAXI是表示图像点颜色的最大数值：
在这里插入图片描述

2. SSIM（Structure Similarity Index Measure，结构相似性评价）

SSIM可以衡量图片的失真程度，也可以衡量两张图片的相似程度。与MSE和PSNR衡量绝对误差不同，SSIM是感知模型，即更符合人眼的直观感受。SSIM 主要考量图片的三个关键特征：亮度（Luminance）, 对比度（Contrast）, 结构 (Structure)。
在这里插入图片描述

3. Lpips（Learned Perceptual Image Patch Similarity，图像感知相似度指标）

LPIPS也称为“感知损失”(perceptual loss)，用于度量两张图像之间的差别，该度量标准学习生成图像到Ground Truth的反向映射强制生成器学习从假图像中重构真实图像的反向映射，并优先处理它们之间的感知相似度。LPIPS比传统方法（比如PSNR, SSIM）更符合人类的感知情况。LPIPS的值越低表示两张图像越相似，反之，则差异越大。
不论是监督学习，半监督学习还是无监督学习，只要是深度学习，从其模型的网络结构种提取的特征进行度量都可以得到与人类感知比较一致的判断，因此论文提出使用当前任务的模型所学习的特征来进行度量。使用的特征如图（原文Fig3）所示：
在这里插入图片描述

计算真实样本x与生成样本x_0之间的距离d_0，具体度量d的计算就是计算真实样本x和生成样本x_0在模型内的特征差异，这个差异在每个通道内使用L_2来计算，最后是所有通道的加权平均，具体公式如下：

在这里插入图片描述
PDF：https://arxiv.org/pdf/1801.03924.pdf

4. NIQE（Natural Image Quality Evaluator，自然图像质量评估）

NIQE这个模型的设计思路是基于构建一系列的用于衡量图像质量的特征，并且将这些特征用于拟合一个多元的高斯模型，这些特征是从一些简单并且高度规则的自然景观中提取；这个模型实际上是衡量一张待测图像在多元分布上的差异，这个分布是有一系列的正常的自然图像中提取的这些特征所构建的。
在这里插入图片描述

PDF: https://doi.org/10.1109/LSP.2012.2227726

5. IS（Inception Score，一般在SR里不用）

顾名思义，基于Inception网络的score计算方法，一般用于衡量GAN网络生成的图片质量。IS是对生成图片清晰度和多样性的衡量，IS值越大越好。
将 Inception Model 在训练数据集（也可以是训练数据集+验证数据集+测试数据集）进行训练，得到训练完成的模型。然后，我们使用 GAN 网络生成的一系列图片，暂且称之为 fake_images。然后我们使用预训练的模型 Inception Model 去判断生成对抗网络生成的每一张图片 fake_image，当 Inception model 预测每一张 fake_image 为低熵的时候，也就是其中某一个类别 p(yi|x)有着很大的概率时候，Inception Model预测该图片置信度高，我们便认为该图片有着很高的生成质量。同时，我们还希望图片有着较高的多样性，也就是说我们希望 fake_images 的种类均衡，比如说 GAN 生成5个类别，那么最好生成的fake_image 中五个类别各占有20%的比例，也就是说每一个类别概率都要尽可能相等，分布均匀，也就是说多样性尽可能的好。

6. FID（The Fréchet inception distance, Fréchet初始距离）

一般情况下IS评价指标的使用很少，因为它只考虑了GAN生成样本的质量，并没有考虑真实数据的影响。IS用Inception V3直接输出类别，而FID则用其输出特征。FID是从原始图像的计算机视觉特征的统计方面，来衡量两组图像的相似度，是计算真实图像和生成图像的特征向量之间距离的一种度量。这种视觉特征是使用 Inception v3 图像分类模型提取特征并计算得到的。FID 在最佳情况下的得分为 0.0，表示两组图像相同。分数越低代表两组图像越相似，或者说二者的统计量越相似。FID 分数常被用于评估由生成对抗网络（GAN）生成的图像的质量，较低的分数与较高质量的图像有很高的相关性。

缺点：与IS同样基于特征的方法，同样还不能描述特征的空间关系。

PDF: https://arxiv.org/abs/1706.08500017
应用该指标的SISR文章：https://arxiv.org/abs/2012.09841

7. KID（Kernel Inception Distance）

与FID类似，KID通过计算Inception表征之间最大均值差异的平方来度量两组样本之间的差异。此外，与所说的依赖经验偏差的FID不同，KID有一个三次核的无偏估计值，它更一致地匹配人类的感知。

PDF: https://arxiv.org/pdf/1802.03446.pdf
其中IS\FID\KID代码实现：https://github.com/taki0112/GAN_Metrics-Tensorflow

8. 找到北京大学一个有关deep generative model课程，值得观看：

课程网站：https://deep-generative-models.github.io/about/

有关SR metrics的ppt：https://deep-generative-models.github.io/files/ppt/2021/Lecture%2019%20Evaluation%20-%20Sampling%20Quality.pdf

参考来源：
[1] https://blog.csdn.net/xrinosvip/article/details/88569111.
[2] https://zhuanlan.zhihu.com/p/399215180
[3] https://www.jianshu.com/p/555a243fca0f
[4] https://blog.csdn.net/xiaoxifei/article/details/103666186
[5]https://blog.csdn.net/UglyDuckling_16/article/details/105112253
[6]https://blog.csdn.net/qq_40905284/article/details/116541460
[7]https://blog.csdn.net/itomorrower08/article/details/106136598

brilliantii

关注

2
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
SR常用的评价指标

文章目录1. PSNR（Peak Signal to Noise Ratio，峰值信噪比）2. SSIM（Structure Similarity Index Measure，结构相似性评价）3. Lpips（Learned Perceptual Image Patch Similarity，图像感知相似度指标）总结1. PSNR（Peak Signal to Noise Ratio，峰值信噪比）PSNR经常用作图像压缩等领域中信号重建质量的测量方法，它常简单地通过均方差（MSE）进行定义，其中，MAX
复制链接

扫一扫