The Unreasonable Effectiveness of Deep Features as a Perceptual Metric 文章解读

最新推荐文章于 2021-08-27 20:35:07 发布

一只小鱼吖

最新推荐文章于 2021-08-27 20:35:07 发布

阅读量1.9k

点赞数 2

分类专栏：图像相似度文章标签：深度学习

本文链接：https://blog.csdn.net/qq_28564033/article/details/87977692

版权

图像相似度专栏收录该内容

0 篇文章 0 订阅

订阅专栏

文章目录

文章翻译

文章翻译

文章略读

在这里插入图片描述

图1： 这些样例中左边还是右边的图像块和中间图像块最接近呢？在每一个例子中，一些传统相似性度量方法(L2/PSNR，SSIM，FSIM)得出的结论和人类判断的不一致。但是深度学习的方法没从不同的结构(Squeezenet，AlexNet，VGG)和不同的监督类型(监督方法，半监督方法，甚至无监督方法)，都和人类的认知很好的吻合。我们进一步的在大量数据感知评价上对现有的深度学习方法进行比较，模型和数据能在此处看到。
**摘要：**对人类来说，判断两张图片的感知相似性几乎毫不费力，但是这种不假思索背后的过程确实相当复杂的。尽管如此，今天我们广泛用到的诸如PSNR，SSIM等相似性评价指标确实很简单的，也很难符合人类的感知。最近，人们发现在ImageNet上训练好的VGG网络作为图像相似性的度量误差是相当有效的。但是这些所谓的感知误差到底有多么强的感知能力呢。他他们之所以有效的关键因素是什么呢？为了回答这些问题，我们引入了一个新的用于人类感知相似度评价的数据集。我们系统评估了不同网络结构和任务，并用传统方法对他们进行了比较。我们发现深度特征的表现比传统方法在我们的数据集上有大幅度领先。更令人惊讶的是，这个结果不仅限于imageNet上训练的VGG特征，也包括不同的深度学习网络结构以及不同程度的监督方法(全监督，半监督甚至是无监督)。我们的结果预示着感知相似度是深度视觉领域给我们带来的一个新兴的能力。
贡献： 我们的贡献如下：
- 我们介绍了一个大范围，高差异性的感知相似性数据集。包含484K个人类的判断。我们的数据集不仅包含参数化的变形，也包含算法导致的变形。我们收集了不同的感知测试的评价结果，得到了不同的结果。
- 我们证明了在监督，自监督，无监督模型上得到的深度特征在模拟低层次感知相似性上都比以往广泛应用的方法要表现更好。
- 我们证明了不单单是网络结构导致了良好的表现：一个没有训练过的网络变现很差。
- 在我们的数据上，我们通过标定与训练网络的特征反应提升了其效果
结论： 我们的结果说明用于解决预测或者分类等任务的模型能够很好的完成感知判断任务。类似的故事在语义判断中也在发生：在自监督或者无监督模型中训练好的网络在语义任务中也很有效。有趣的是，近期在神经科学方面的发现也很相似：在计算机视觉任务中训练好的模型在猕猴视觉皮层任务中也很有效。也就是说，在计算机视觉任务中代表性越强，在脑皮层活动中也越有效。我们这篇文章也有相似的发现：在分类和检测任务中越有效的模型，作为感知相似性判断也越有效，正如表四所展示的。总的来说，这些结果告诉我们，一个好的特征在各方面都表现很好。在语义上表现好，那么在自监督或者无监督任务上也表现良好，对于人类感知的表现以及猕猴脑皮层活动的模拟也会很有效。最后一点和视觉认知的理性分析相一致，生物感知的特点是理性的代理人想要解决自然任务的结果而已。这是未来一个很重要的研究方向。

略读疑惑：

这篇文章是一个探索性和实验性的文章，并不是提出了什么相似性度量方法，而是自己提出了一个数据集，对现有方法进行比较，得出深度特征表现更好的结论。作者有提出自己的比较好的度量方法或者网络结构吗？
作为度量图像相似度方面的文章，感知相似度就一定比传统相似方法好吗？

文章精读

**Motivation：**比较数据的能力可能是所有计算能力的基础，在许多计算机领域，这个事情并不难，计算二值图像的海明距离，编辑距离以比较文本文件，欧氏距离比较向量等。但是在计算机视觉领域这个看起来十分简单的任务却仍有很大问题。不仅是因为视觉模式是高维且相互关联的，而且为了和人类视觉感知相一致，视觉相似性的概念十分主观。例如，在图像压缩领域，压缩图像的目的是为了在人类看来和原始图像没有很大区别，而不管他们在像素上可能有很大差别这个因素。
传统的逐像素测量方法，例如，被广泛用于回归问题的L2欧氏距离，或者相关的PSNR，对于评价图像的相似性是不充分的，因为他们将像素独立开来。一个最典型的例子就是模糊就会造成图像在感知上的很大不同，但是在L2范数上却差别不大。
那么到底什么是感知距离呢，感知距离用于评价两幅图像在人类感知的角度上的相似性。这个问题由来已久，而且现在已经有大量的一感知距离为依据而提出的诸如SSIM，MSSIM， FSIM，HDR-VDP等方法。
但是，构建一个感知度量是十分困难的，因为人类评价相似(1)和图像的结构高度相关，(2)也和图像的内容相关，(3)甚至可能实际上无法形成一个距离度量方法。(2)的难点在于有许多不同的相似的感觉同时存在我们的脑子里：一个红色的圆和一个红色的正方形更想呢还是和一个蓝色的圆更像？直接去拟合一个方程对这种相似性进行模拟是很困难的。事实上，在这篇文章中我们也证明了这种方法是行不通的，即使用大量的包含扭曲图像的数据集去训练也不行。
换种思路，是否存在一种不直接训练而去学习感知相似性度量的方法呢？计算机视觉领域发现即使是为了高层次的图像分类任务而训练的模型，在其他领域也有着惊人的作用。例如，从VGG结构中提取的特征被用到风格转换，图像超分重建，条件图像合成等领域。这些方法利用VGG特征空间作为一种距离度量方式，将其当作感知损失，用于图像回归问题。
但是感知损失到底和人类视觉有多接近呢，他们和传统的图像感知相似性评价方法有何差别呢，这种感知损失和网络结构有关系吗，网络必须被用于ImageNet分类任务训练才有此效果吗，还是说用其他任务训练也可以，还是说网络根本不需要被训练呢。
这篇文章中我们用大量数据来评估上面的问题，并得到了一些令人讶异的结论。我们发现用于分类任务训练的网络，即使采用不同的网络结构，内在的评价和人类感知评价确实很接近。事实上，他们比被广泛应用的SSIM，FSIM等要表现好得多，SSIM这些指标没有到考虑空间模糊的情况。进一步的，表现最好的诸如BiGANs，跨通道预测，解谜等自监督网络在这个任务中也表现十分好，即使没有人为标签的训练数据的帮助。即使是一个简单的非监督网络，用大量kmeans初始化得到的网络的表现也比传统方法要好得多。这说明了一个新兴的能力被网络所具备，不论这个这个网络是什么结构，如何训练。但是，也要注意，用一定的训练方式进行训练是很重要的，一个随机初始化的网络结构表现就十分差。
我们的研究是基于一个全新收集的用于度量感知相似性的数据集，这个数据集中的图像使用了大量的变形和真实算法结果。数据集中包含传统的变形，诸如对比度，饱和度的调整，噪声的添加，滤波以及空间变形等操作，也包括利用CNN网络得到的处理结果图，包括自编码，去噪，颜色化，用一系列不同的网络结构和损失函数得到。我们的数据集比同类型的数据集种类更多数据量更大。
(Our results are consistent with the hypothesis that perceptual similarity is not a special function all of its own, but rather a consequence of visual representations tuned to be predictive about important structure in the world)我们的结论也和关于感知相似性的假说一致，该假说认为感知相似性本身并不是一种特殊的功能，而是视觉表征用于预测世界上重要的结构的一种必然结果。在语义预测任务中有效的表示，在感知相似性预测中也十分有效。

答疑解惑

作者没有提出什么结构，但是确实是利用人标定的感知觉得图片更接近得到的数据集对现有的VGG，AlexNet等网络进行训练，三种参数调整方式(lin，scratch，tune)进行对比实验。最终得出感知相似度比传统相似性度量方法更好的结论。
不一定，根据作者实验，感知相似度对噪声更不敏感，对模糊更敏感，与此相反，在像素级别上的相似性度量对于模糊更不敏感，对噪声更敏感，各有特点而已。只能说人类的对图像是这种感觉，模糊的图像就不像了，加点噪声和扭曲不是特别影响观感。而文章中的感知相似度就是根据现有的人的评分进行训练的，当然和人的感知更接近。

一只小鱼吖

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
The Unreasonable Effectiveness of Deep Features as a Perceptual Metric 文章解读

文章目录代码跑通文章翻译文章略读代码跑通文章翻译文章略读图1：这些样例中左边还是右边的图像块和中间图像块最接近呢？在每一个例子中，一些传统相似性度量方法(L2/PSNR，SSIM，FSIM)得出的结论和人类判断的不一致。但是深度学习的方法没从不同的结构(Squeezenet，AlexNet，VGG)和不同的监督类型(监督方法，半监督方法，甚至无监督方法)，都和人类的认知很好的吻合。我...
复制链接

扫一扫