Perceptual Losses for Real-Time Style Transfer and Super-Resolution

最新推荐文章于 2021-03-31 13:53:45 发布

NoTime4Emotion

最新推荐文章于 2021-03-31 13:53:45 发布

阅读量365

点赞数

分类专栏： Methodology 文章标签：深度学习计算机视觉机器学习神经网络

本文链接：https://blog.csdn.net/qq_42192910/article/details/105258534

版权

10 篇文章 0 订阅

订阅专栏

1. Main idea

目标在于图像转换问题(image to image)。目前的大多数方法都是直接通过神经网络更新每个像素之间损失。Recent methods for such problems typically train feed-forward convolutional neural networks using a $p e r$ - $p i x e l$ loss between the output and ground-truth images.
目前相关工作证明能够通过预训练的网络得到感知损失进行优化生成图像。Parallel work has shown that high-quality images can be generated by defining and optimizing $p e r c e p t u a l$ loss functions based on high-level features extracted from pretrained networks.
基于上述两点，提出了感知损失函数用于神经网络的图像转换任务。We combine the benefits of both approaches, and propose the use of perceptual loss functions for training feed-forward networks for image transformation tasks. 实验结果转换速度快，效果好。

image transformation tasks的应用非常广泛，诸如图像去噪；图像超分辨；图像上色均是图像转换任务之一。或者甚至是图像语义分割任务，输出也不过是具有语义信息编码的图像。
per-pixel losses的问题在于：并不能捕获出感知性的差异(perceptual differences)。如：尽管两张图像的感知性的差异很小，但是其每个像素都差一个单位，那么如果是per-pixel losses的结果仍然会是很大的。
相对应地，最近已经有一些工作展示出了：通过预训练的神经网络提取的图像特征来得到感知损失，并且用于高质量图像生成已经有所成果。但是优化推断的过程太慢。
于是乎提出perceptual losses。其更能鲁棒性地估计图像的相似度，而不是仅仅利用直白地像素信息。

其实已经可以感觉到全文的意思，即通过一个预训练的神经网络 $\phi(x)$ 来提取像素信息 $x$ ，而得到的高维的感知特征 $\phi(x)$ 再被用于损失函数。

正如下图所示，整个网络包含两个部分：其一是图像转换本身的网络 $f_{W}$ (深度残差网络)；其二是感知损失函数 $\phi$ ，包含多个具体损失函数 $\ell_1,...,\ell_k$ (如下图也就是神经网络的不同层的输出得到的是不同的损失函数 $\ell_i$ )。
$x$ 是原始图像，通过转移网络神经网络transformation得到 $\hat{y}=f_W(x)$ 。而 $\ell_i(\hat{y},y_i)$ 即是用来衡量转移网络的输出与目标图像的差距的损失函数。
于是有更新过程：
$W^* = \argmin _{W} \mathbf{E}_{x,\{y_i\}} \left[ \sum_{i=1} \lambda_i \ell_i(f_W(x),y_i) \right]$

总体可以理解为神经网络其实就是拟合的任意函数，此前大多数的均方差，绝对值差的损失函数都是直接对像素结果操作，并没有充分利用其像素内在的一些信息，为何不用一个神经网络来实现损失函数？

Tips：一般图像去模糊，超分辨的任务都不改变网络过程中图像尺寸；而语义分割的相关任务会在卷积过程中改变图像的特征尺寸。
在这里插入图片描述

但是如何得到损失函数的 $\phi$ ？
The key insight of these methods is that convolutional neural networks pretrained for image classification have already learned to encode the perceptual and semantic information we would like to measure in our loss functions.
即是直接通过一个预训练的图像分类的网络(已经能够很好的提取出图像的语义信息)作为 $\phi$ 。于是损失函数就变成了转换网络输出 $\hat{y}$ 与目标图像 $y_i$ 再经过一个VGG-16，得到了高维的特征图像向量后，再做对比。
更具体地，损失函数包含两类，分别是 $\ell^\phi_{style}$ 和 $\ell^\phi_{feat}$ 用于衡量图像的风格差异和内容差异。因为title写出了该paper的目的是用于风格迁移和超分辨，每一张图像都有其风格的目标图像和内容的目标图像，所以有：
- 当风格迁移时， $y_c$ 即是输入 $x$ ，而输出 $\hat{y}$ 应当同时结合content的 $y_c=x$ (保证图像的主体内容应该是一致的)以及style的 $y_s$ (保证图像具有风格图像 $y_s$ 的特质)。
- 当超分辨时， $x$ 即是一张低分辨率的输入图像，而输出 $\hat{y}$ 就是输出的超分辨图像， $y_c$ 是超分辨的目标标签图像，风格图像 $y_s$ 没有用。