The Unreasonable Effectiveness of Deep Features as a Perceptual Metric, CVPR18
这篇文章通过大量的实验分析了使用深度特征度量图像相似度的有效性。得到了如下结论:
- perceptual similarity比traditional similarity(such as L1)有效。而不同的分类网络的特征对最终perceptual similarity的影响不大
- 网络不一定在分类任务训练。BiGAN,Puzzle,Splitbrain等自监督、无监督任务模型的特征也能很好的度量相似度
- 网络可以学习perceptual similarity
图像的相似度度量存在的困难主要在
- 相似度的比较依赖图像结构。L2距离等度量逐像素的比较相似度,忽视了图像的结构信息,因此不适合比较图像的相似度。
- 上下文相关。比如红色的圆和红色的正方形更像还是和蓝色的圆更像?
- 相似度有可能不满足距离的定义
为了验证图像相似度的有效性,作者设计了一个庞大的图像相似度评估数据集;引入了2AFC、JND两个评估指标;设计了用于学习perceptual similarity 的LPIPS模型;进行了大量的实验。接下来的部分将依次介绍作者的上述工作。
数据集
之前用于评价图像相似度的数据集更加关注人的判断,而图像以及对图像应用的变换非常少。这篇文章的作者使用MIT-Adobe 5k dataset的图像作为训练集,RAISE1k dataset的图像作为测试集。
数据集中的数据都被分割为64*64的patch,分成小图像块可以带来以下好处:
- 更关注低层次的相似度(针对上述第2个难点)
- 整张图像的空