深度学习【23】图像风格化总结

最新推荐文章于 2025-03-05 16:32:49 发布

DCD_Lin

最新推荐文章于 2025-03-05 16:32:49 发布

阅读量8.7k

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/linmingan/article/details/78500616

版权

本文总结了图像风格转移的几种方法，包括基于优化、任意内容图像单一风格、多风格以及任意内容图像任意风格的转换。从最早的VGG19优化到后来的卷积网络、马尔科夫模型、多尺度前馈网络，再到自适应实例归一化(AdaIN)，这些技术不断优化了风格转换的速度和质量，实现了从实时合成到多样化风格的转换。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、基于优化的方法

基于优化的方法，是在Image Style Transfer Using Convolutional Neural Networks提出的。也是图像风格转换的开山之作。
该论文最大的创新点是，找出了能够表征风格和内容的特征。这些特征都是从已经训练好的VGG19抽取出来的。表征内容的特征是由VGG19中的多层卷积层的输出构成的；而表征风格的特征是由VGG19中多层卷积层的输出，并计算gram矩阵得来的。具体怎么算可以参考论文。
在得到内容和风格特征的计算方法后，该论文直接优化一张随机初始化的图像。目标是使该图像的内容特征与要被风格化的内容图像的内容特征一致；以及，使该图像的风格特征与目标风格图像的风格特征一致。
缺点是太慢了，因为要风格化一张图片就要运行一次L-BFGS优化算法。

2、任意内容图像单一风格

Perceptual Losses for Real-Time Style Transferand Super-Resolution
提出了学习一个网络来实现风格画。
该论文主要创新点是利用一个学习好的网络来风格化一种风格，但是可以对任意内容图像进行风格化；同时还改进了基于优化方法的损失函数，简单来说就是除以卷积层输出的大小（C×H×W）。

Precomputed Real-Time Texture Synthesis with Markovian Generative Adversarial Networks
该论文也是基于前馈网络的方法，但是是采用了马尔科夫模型的原理来训练一个GAN；即在训练D网络的时候，输入是一张图片（论文中是从VGG提取的特征）的一小块并判断这个小块是生成的还是真是的。该论文也采取了一些措施来加速风格化，分别是，1、使用带步长的卷积层代替polling层，2、预先计算风格图片的特征。

大致流程：内容图像经过VGG进行特征抽取，送入G网络并输出风格图像，风格图像分别经过VGG网络抽取出风格特征和内容特征。最后将合成图片的风格特征和风格图像的风格特征输入到D网络得到GAN的损失函数，并将合成的图片的内容特征和内容图像的内容特征输入MSE损失函数。这两个损失函数共同更新网络的参数（主要是G网络和D网络）。

Texture Networks: Feed-forward Synthesis of Textures and Stylized Images
多尺度前馈网络，比如要风格化一张128×128的图片。网络的输入为4张图片尺度分别为16×16, 32×32, 64×64, 128×128。这样网络就有4层（每一层包含上采样+通道合并+卷积），每一层的输入分别来自上一层的输出和不同尺度的图片经过卷积后的输出。可以看看论文的图片，更直观一点。

Multimodal Transfer: A Hierarchical Deep Convolutional Neural Network for Fast Artistic Style Transfer
多模型组合在一起，为了生成更高分辨率更清晰的图片。分别由风格化模块，enhance模块，refine模型以及损失函数模块构成。其中风格化模型由处理RGB和处理亮度模块构成。

Improved Texture Networks: Maximizing Quality and Diversity in Feed-forward Stylization and Texture Synthesis
该论文通过优化一个KL散度损失函数同时加入IN层，来提升风格化图像的质量和多样性。这边比较重要的点是IN层，为后面的同一网络同时风格化多种风格打下了基础。IN层跟BN一样都是归一化层。都要计算均值和方差，但IN层计算的是卷积层每一层输出的每个通道数据自身的均值和方差。具体可查阅原始论文。