图像相似度评价指标

最新推荐文章于 2024-02-27 11:38:03 发布

浮生了大白

最新推荐文章于 2024-02-27 11:38:03 发布

阅读量1.2w

点赞数 6

分类专栏：图像处理

本文链接：https://blog.csdn.net/qq_38640439/article/details/102385652

版权

图像处理专栏收录该内容

6 篇文章 0 订阅

订阅专栏

图像相似度评价指标

在图像处理中我们经常遇到需要评价两张图像是否相似，给出其相似度的指标，这里总结了三种评判指标均方误差MSE, 结构相似性SSIM, 以及峰值信噪比PSNR, 分三个小结介绍其原理以及对应的matlab以及tensorflow版本的算法实现。

均方误差MSE

即m×n单色图像 I 和 K（原图像与处理图像）之间均方误差，定义为：

结构相似性SSIM

结构相似性：
自然图像具有极高的结构性，表现在图像的像素间存在着很强的相关性，尤其是在空间相似的情况下。这些相关性在视觉场景中携带着关于物体结构的重要信息。我们假设人类视觉系统（HSV）主要从可视区域内获取结构信息。所以通过探测结构信息是否改变来感知图像失真的近似信息。
大多数的基于误差敏感度（error sensitivity）的质量评估方法(如MSE,PSNR)使用线性变换来分解图像信号，这不会涉及到相关性。我们要讨论的SSIM就是要找到更加直接的方法来比较失真图像和参考图像的结构。
SSIM指数
物体表面的亮度信息与照度和反射系数有关，且场景中的物体的结构与照度是独立的，反射系数与物体有关。我们可以通过分离照度对物体的影响来探索一张图像中的结构信息。这里，把与物体结构相关的亮度和对比度作为图像中结构信息的定义。因为一个场景中的亮度和对比度总是在变化的，所以我们可以通过分别对局部的处理来得到更精确的结果。

SSIM的算法流程图原理图如下所示：

SSIM测量系统

SSIM的求解公式如下：

SSIM formula

其中u_x是x的平均值，u_y是y的平均值，σ_x是x的方差，σ_y是y的方差，σ_{xy}是x和y的协方差。c_1=(k_1*L)^2，c_2=(k_2*L)^2是用来维持稳定的常数。L是像素值的动态范围。k_1=0.01,k_2=0.03。
结构相似性的范围为-1到+1（即SSIM∈(-1, 0]）。当两张图像一模一样时，SSIM的值等于1。

峰值信噪比PSNR

PSNR本质上与MSE相同，是MSE的对数表示。

峰值信噪比PSNR衡量图像失真或是噪声水平的客观标准。2个图像之间PSNR值越大，则越相似。普遍基准为30dB，30dB以下的图像劣化较为明显。定义为：

基于低频的均值哈希

一张图片就是一个二维信号，它包含了不同频率的成分。如下图所示，亮度变化小的区域是低频成分，它描述大范围的信息。而亮度变化剧烈的区域（比如物体的边缘）就是高频的成分，它描述具体的细节。或者说高频可以提供图片详细的信息，而低频可以提供一个框架。

而一张大的，详细的图片有很高的频率，而小图片缺乏图像细节，所以都是低频的。所以我们平时的下采样，也就是缩小图片的过程，实际上是损失高频信息的过程。

均值哈希算法主要是利用图片的低频信息，其工作过程如下：

缩小尺寸：去除高频和细节的最快方法是缩小图片，将图片缩小到8x8的尺寸，总共64个像素。不要保持纵横比，只需将其变成8*8的正方形。这样就可以比较任意大小的图片，摒弃不同尺寸、比例带来的图片差异。简化色彩：将8*8的小图片转换成灰度图像。计算平均值：计算所有64个像素的灰度平均值。比较像素的灰度：将每个像素的灰度，与平均值进行比较。大于或等于平均值，记为1；小于平均值，记为0。计算hash值：将上一步的比较结果，组合在一起，就构成了一个64位的整数，这就是这张图片的指纹。组合的次序并不重要，只要保证所有图片都采用同样次序就行了。(我设置的是从左到右，从上到下用二进制保存)。计算一个图片的hash指纹的过程就是这么简单。刚开始的时候觉得这样就损失了图片的很多信息了，居然还能有效。简单的算法也许存在另一种美。如果图片放大或缩小，或改变纵横比，结果值也不会改变。增加或减少亮度或对比度，或改变颜色，对hash值都不会太大的影响。最大的优点：计算速度快！这时候，比较两个图片的相似性，就是先计算这两张图片的hash指纹，也就是64位0或1值，然后计算不同位的个数(汉明距离)。如果这个值为0，则表示这两张图片非常相似，如果汉明距离小于5，则表示有些不同，但比较相近，如果汉明距离大于10则表明完全不同的图片。

增强版：pHash

均值哈希虽然简单，但受均值的影响非常大。例如对图像进行伽马校正或直方图均衡就会影响均值，从而影响最终的hash值。存在一个更健壮的算法叫pHash。它将均值的方法发挥到极致。使用离散余弦变换(DCT)来获取图片的低频成分。离散余弦变换（DCT）是种图像压缩算法，它将图像从像素域变换到频率域。然后一般图像都存在很多冗余和相关性的，所以转换到频率域之后，只有很少的一部分频率分量的系数才不为0，大部分系数都为0（或者说接近于0）。下图的右图是对lena图进行离散余弦变换（DCT）得到的系数矩阵图。从左上角依次到右下角，频率越来越高，由图可以看到，左上角的值比较大，到右下角的值就很小很小了。换句话说，图像的能量几乎都集中在左上角这个地方的低频系数上面了。 pHash的工作过程如下：缩小尺寸：pHash以小图片开始，但图片大于8*8，32*32是最好的。这样做的目的是简化了DCT的计算，而不是减小频率。简化色彩：将图片转化成灰度图像，进一步简化计算量。计算DCT：计算图片的DCT变换，得到32*32的DCT系数矩阵。缩小DCT：虽然DCT的结果是32*32大小的矩阵，但我们只要保留左上角的8*8的矩阵，这部分呈现了图片中的最低频率。计算平均值：如同均值哈希一样，计算DCT的均值。计算hash值：这是最主要的一步，根据8*8的DCT矩阵，设置0或1的64位的hash值，大于等于DCT均值的设为”1”，小于DCT均值的设为“0”。组合在一起，就构成了一个64位的整数，这就是这张图片的指纹。结果并不能告诉我们真实性的低频率，只能粗略地告诉我们相对于平均值频率的相对比例。只要图片的整体结构保持不变，hash结果值就不变。能够避免伽马校正或颜色直方图被调整带来的影响。与均值哈希一样，pHash同样可以用汉明距离来进行比较。(只需要比较每一位对应的位置并算计不同的位的个数)

浮生了大白

关注

6
点赞
踩
54

收藏

觉得还不错? 一键收藏
0
评论
图像相似度评价指标

图像相似度评价指标在图像处理中我们经常遇到需要评价两张图像是否相似，给出其相似度的指标，这里总结了三种评判指标均方误差MSE,结构相似性SSIM, 以及峰值信噪比PSNR, 分三个小结介绍其原理以及对应的matlab以及tensorflow版本的算法实现。均方误差MSE即m×n单色图像 I 和 K（原图像与处理图像）之间均方误差，定义为：结构相似性SS...
复制链接

扫一扫

专栏目录