判断两个图片的特征向量_[CVPR2018]监督学习感知距离 图片相似度的新度量

f88a8169cd74101d7692ab9dd0f24a58.png

《The Unreasonable Effectiveness of Deep Features as a Perceptual Metric》

e04a9fa2b92f9f25e9a576147f9ce871.png

项目主页 http://richzhang.github.io/PerceptualSimilarity/

介绍一下 CVPR 2018 的一篇 poster,这篇论文写的很好,代码开源。

通常我们用欧氏距离或者结构相似性(SSIM)度量图片之间的距离,但是有时距离相近的图片,在人类看来并不那么相像,例如高斯模糊后的图片虽然 L2 距离和原图相近,但我们却认为丢失了大部分的特征信息。

上方有三组图片,每组的中间一张是原图,两边是噪声图,问题是哪一张更像?图下方是人类和其它一些方法给出的结果。

我们希望让程序能给出和人类一致的结果,最好能给出一种感知距离,这样能够更好的评价目前的一些图片生成或者压缩算法。

一张图片被添加各种噪声,或者压缩之后,多大程度上会影响人类对它的知觉?这个影响是很难量化的,原因是人类感知的一些特性:

  1. 基于一种比较高级的图像特征,比如语义信息
  2. 基于『语境』,比方说你很难回答一个黑色的圆和一个黑色的正方形更像,还是和一个红色的圆更像
  3. 有时并不符合一个距离的定义

在 Imagenet 的分类问题中,通常把各种卷积网络提取的特征层接几层全连接层出分类结果。在迁移到新的问题时,通常可以载入一个这样训练好的模型参数,然后只训练最后一层即可,即把之前的层看作是在图像上提取各种特征。更进一步,可以在两张图片提取出的两个特征间直接计算一个距离,称为感知损失(perceptual loss),这种度量被应用于风格迁移和超分辨率上,有很好的实验效果。

通过实验发现,直接使用感知损失能够把这个问题解决得很不错。我们希望度量不同模型给出的感知损失的性能,以及知道怎么把它们变得更好。

一个很直接的方法就是,造一个数据集让网络有监督地学习这个任务。

BAPPS (Berkeley-Adobe Perceptual Patch Similarity)数据集

456dfd6aabd6823bb10c0db2573ef1e2.png

这个工作造了一个包含 484k 个标签的超大数据集,每个样本是一个双向强迫选择(2AFC),即给原图和两张噪声图,询问哪一张更像原图。

生成图片噪声的方法有两类,一类是传统方法,另一类是一些用卷积网络生成的图片,因为许多网络生成的图片都带有某些特定结构的噪声。传统方法有,光线调整,模糊,各种噪点、形变色变等。用网络生成图的方法是用这些图片作为一些任务的输入,任务包括去噪,上色,编码解码等,采用不同的网络结构和损失函数。

还从实际算法的生成图中收集了一些图片作为一个测试集。

实验

e2e3bcf02255b40d2f5af55158f34cae.png

2AFC 实验就是让网络 F 做一个嵌入(把若干层输出的特征拼一下),计算出一个距离。再训个小模型做分类预测,因为这里的预测不只是 0 / 1,数据集是多人标注的,可能会有不一致的意见,这时候预测值应该是一个 0 到 1 的实数。

2AFC 实验的缺点就是人类判断比较主观,极端情况是标注者可能会有对某一侧图片的偏好。于是论文还做了一个 JND(在心理物理学中,最小可觉差(JND)代表人类或动物,对于某一特定的感官刺激所能察觉的最小改变)实验,即让人标注原图和一张噪声图是否看起来是一张图,类似地训练网络去分类。

对于每个模型,有三种训练方式:

linear :只训练一层线性变换,即图中的 w

tune:加载训好的参数

scratch:参数从高斯分布中初始化

d548fd2e6fc83bb0dbaed7a99e9355a0.png

左图是在生成的噪声图上的测试结果,右图是在真实算法的输出图上的测试结果。可以看到,虽然要和人类一致很难,但是网络学出来的度量比低级的距离度量要好不少。

这里用了三种网络结构,SqueezeNet(2.8 MB),AlexNet (9.1 MB) 和 VGG (58.9 MB),虽然参数数量上差距很大,但是表现相近,其中 AlexNet 速度最快。

分析

328eb0e20b3f65c6c9f398fbe7731bf5.png

上图量化了各种方法在两项实验上的表现,深度学习的方法普遍优于传统方法,两项实验显示出了比较强的相关性。

f3e5627c304327c38151625f40a95c13.png

文章还讨论了这两个实验和分类、检测任务性能的相关性。

7fdc928027707ad3e79bcb6123415b53.png

上图展示了低级的度量方法和深度学习的认为的『相似』或『不相似』的图片类型,可以看出主要是在图片模糊后给出的评价不同。

总结

经过训练的网络能更好地完成感知判断任务,类似的故事也发生在语义判断中。

实验发现在其它视觉任务上表现更好的模型,无论哪种训练方式,都能在感知判断实验中取得相对更好的表现,即一个更适于分类或者检测的特征,也会更适合用于感知判断。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值