照片级逼真的图像风格化

最新推荐文章于 2023-09-14 09:26:44 发布

名为28

最新推荐文章于 2023-09-14 09:26:44 发布

阅读量2.1k

点赞数 2

分类专栏：图像处理文章标签：计算机视觉人工智能图像处理

本文链接：https://blog.csdn.net/m0_54240221/article/details/124937410

版权

图像处理专栏收录该内容

1 篇文章

订阅专栏

FastPhotoStyle是一种针对照片级逼真图像风格化的解决方案，由风格化和平滑两步组成。风格化步骤使用改进的白化和着色变换减少结构伪影，平滑步骤通过像素亲和度矩阵实现空间一致性。这种方法生成的图像在保真度和视觉效果上优于现有技术，同时运行速度快49倍。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

A Closed-form Solution to Photorealistic Image Stylization

——照片级逼真的图像风格化

1. 摘要

照片级逼真的图像风格化涉及到将参考照片的风格转换为内容照片，其约束条件是，经过风格化的照片应保持照片级逼真程度。虽然存在多种逼真的图像风格化方法，但它们往往会产生具有明显伪影的空间不一致。在这篇论文中，提出一种解决这些问题的方法——FastPhotoStyle。

该方法由风格化步骤(stylization step)和平滑步骤(smoothing step)组成。当风格化步骤将引用照片的样式转换为内容照片时，平滑步骤确保空间上一致的样式化。每个步骤都有一个封闭的解决方案，可以有效地计算。作者进行了广泛的实验验证。结果表明，与其他方法相比，该方法生成的逼真风格输出更受受试者的青睐，同时运行速度更快，比传统方法快49倍。

2. 背景

2.1 图像风格化

图像风格化又可以称为风格迁移，即将一张具有艺术特色的图像的风格迁移到一张普通的图像上，使原有的图像保留原始内容的同时，具有独特的艺术风格，如卡通、漫画、油画、水彩、水墨等。

2.2 图像风格化的目标

照片般逼真的图像样式转换的目标是将照片的样式更改为与另一个照片的样式相似。对于忠实的样式化，输出照片中的内容应保持不变，而输出照片的样式应与参考照片的样式相似。此外，输出照片应该看起来像是由相机拍摄的真实照片。

2.3 前人工作

由于缺乏富有表现力的特征表示，经典的样式化方法基于匹配颜色统计（例如，颜色转移或色调转移）或仅限于特定场景（例如，季节和肖像）。最近，Gatys等人。表明深度特征之间的相关性编码图像的视觉风格，并提出一种基于优化的方法，称为神经风格转移算法，用于图像样式转移。然而虽然该方法对于艺术风格转移（将图像转换为绘画）表现出令人印象深刻的性能，但是当应用于照片级真实图像样式转移任务时，它经常引入结构伪像和失真。在后续工作中，Luan等人。建议将正则化项添加到神经样式转移算法的优化目标函数，并显示这减少了输出图像中的失真，然而，所得到的算法倾向于在图像中不一致地对语义上均匀的区域进行样式化。

3. 本文工作

3.1 总体流程图

第一步是一个称为PhotoWCT风格化转换F1。给定样式照片IS，F1将样式传递给内容图片IC，同时最小化输出图像中的结构伪影。虽然F1可以忠实地样式化，但它通常会在语义相似的区域中生成不一致的样式。因此，使用逼真的平滑函数F2来消除这些伪影。整个算法可以写成两步映射函数：

F2(F1IC,IS,IC)

3.2 风格化

样式化步骤基于白化和着色变换（WCT）算法，并且被称为PhotoWCT步骤。

作者简单地回顾了WCT方法的步骤，WCT将样式化表示为具有特征投影的图像重建问题。为了利用WCT，首先训练用于一般图像重建的自动编码器。具体而言，它使用VGG-19模型作为编码器E（权重保持固定）并训练解码器D以重建输入图像。解码器与编码器对称，并使用上采样层来放大特征图的空间分辨率。一旦训练了自动编码器，就会在网络瓶颈中插入一对投影功能，以通过白化和着色变换执行样式化。 WCT背后的关键思想是通过双投影直接匹配内容图像与样式图像的相关性。WCT在艺术图像风格化方面表现良好。然而，它产生用于照片级真实图像风格化的结构伪像（例如，对象边界上的扭曲）。而PhotoWCT目标旨在抑制结构伪影。

PhotoWCT设计的动机是观察到WCT中的max-pooling操作减少了特征映射中的空间信息。解码器中的上采样特征映射无法恢复输入图像的详细结构。也就是说，我们需要将丢失的空间信息传递给解码器以便于重建这些精细的细节。

受到上池化层在保留空间信息方面的成功启发，PhotoWCT使用上池化层来放置WCT中的上采样层。PhotoWCT和WCT共享相同的编码器架构和投影步骤。在PhotoWCT中，作者用上池化层（绿色）替换上采样层（粉红色）。上池化层与池化掩码（黄色）一起使用，其记录了相应池化层中最大前端最大池区域。 PhotoWCT方法函数为

Y=F1IC,IS=D(PSPCHC)

其中D是解码器，包含unpooling层，被训练用于图像重建，PC为白化操作，PC为着色操作，HC为矢量化VGG特征。

下图比较了WCT和PhotoWCT的程式化结果。如特写中所示，内容图像中沿建筑物边界的直线在WCT样式化结果中变为锯齿形，但在PhotoWCT结果中保持笔直。 PhotoWCT风格化的图像具有很少的结构伪像。

3.3 平滑化

PhotoWCT风格化的结果看起来仍然不像照片，因为语义相似的区域通常风格化不一致。如图d所示，当应用PhotoWCT使用夜间照片对日间照片进行样式化时，如果风格化的天空区域是均匀的深蓝色而不是部分黑暗而部分是浅蓝色，那么风格化的天空区域将更加逼真。基于这一观察，作者采用了内容照片中的像素亲和度光滑的PhotoWCT风格化结果。

为了在平滑步骤中实现两个目标。首先，在局部邻域中具有相似内容的像素应该类似地风格化。其次，输出不应与PhotoWCT结果显着偏离，以保持全局样式效果。作者首先将所有像素表示为图中的节点，并定义了一个亲和度矩阵W=wij∈RN×N（N是像素数）以描述像素相似性。作者定义了一个平滑项和一个拟合项，用于在以下优化问题中模拟这两个目标：

其中yi是PhotoWCT样式化结果中的像素颜色Y和ri是所需平滑输出R中的像素颜色。变量dii=jwij是W的度矩阵D中的对角元素即D=diag{d11，d22，...，dNN}。

该公式是基于图形的排名算法。在排名算法中，Y是二进制输入，其中每个元素指示特定项是否是查询（如果yi是查询则yi = 1，否则yi= 0）。最优解R是基于其成对亲和度的所有项的排名值。在本文的算法中，其将Y设置为PhotoWCT样式化结果。最优解R是基于成对像素亲和度的Y的平滑版本，其促进在语义上相似的区域内的一致的样式化。

上述优化问题是一个简单的二次问题，采用闭式解决方案，由下式给出:

R*=(1-α)(1*αS)-1Y

其中I是是单位矩阵α=11+λ和S是从IC计算的归一化拉普拉斯矩阵，S=D-12WD-12∈RN×N ，由于构造的图形通常稀疏地连接（W中的大多数元素为零），上式中的逆操作在计算上是有效的。使用close-form解决方案，平滑步骤可以写为函数映射，由下式给出：

R*=F2Y, IC=(1-α)(1*αS)-1Y

3.3.1 亲和矩阵

使用基于8连接图像图形假设的内容照片来计算亲和度矩阵W. 虽然存在几种亲和度量度选择，但是流行的是将亲和度（表示为高斯亲和度）定义为wij=e-Ii-Ij2/σ2其中Ii， Ij是相邻像素i,j的RGB值，而σ是全局缩放超参数。

但是，在实践中很难确定σ值。它通常导致整张照片过度平滑或不一致地对照片进行样式化，它通常导致整张照片过度平滑（下图e）或不一致地对照片进行样式化（下图e）。为了避免选择一个全局缩放超参数，我们求助于matting亲和力[13,40]，其中两个像素之间的亲和度基于本地窗口中像素的均值和方差。下图d显示消光亲和力能够同时很好地平滑不同区域。

作者注意到平滑步骤还可以消除WCT中的结构伪影，如下图(e)所示。然而，它导致不令人满意的程式化。主要原因是内容照片和WCT结果由于空间扭曲而严重错位。例如，WCT结果中的建筑物的程式化像素可以对应于内容照片中的天空的像素。因此，这会导致Y中的错误查询以进行平滑步骤。这就是为什么我们需要首先使用PhotoWCT来消除失真。下图(f)显示PhotoWCT和平滑的组合导致更好的照片级真实感，同时仍保持忠实的风格化。

4. 实现

代码在GitHub - NVIDIA/FastPhotoStyle: Style transfer, deep learning, feature transform进行了开源。作者分别阐述了实现的细节，此处不再赘述。

5. 结果

5.1 不同照片级逼真的图像风格化

5.1 艺术风格化比较

6. 性能评估

6.1 竞争算法运行时间

6.2 平滑效果

6.3 用户偏好

6.4 λ灵敏性分析

7. 结论

7.1 概要总结

这个来自英伟达(NVIDIA)和加州大学默塞德分校的研究团队提出了一种新的解决照片级图像风格化的方法——FastPhotoStyle。该方法包括两个步骤：风格化和平滑化。大量的实验表明，该方法生成的图像比以前的最先进的方法更真实、更引人注目。更重要的是，由于采用封闭式的解决方案，FastPhotoStyle生成风格化图像的速度比传统方法快49倍。

7.2 研究成果