图像风格迁移总结

kelly学技术

已于 2023-12-25 18:53:07 修改

阅读量3.4k

点赞数 1

分类专栏： python技术基础文章标签：人工智能

于 2021-03-29 09:08:58 首次发布

本文链接：https://blog.csdn.net/qm5132/article/details/115293031

版权

python技术基础专栏收录该内容

14 篇文章 0 订阅

订阅专栏

图像分割迁移总体上分类2大类：基于优化的方法和基于decoder的方法。下面按照发展阶段梳理：

文理合成的第一篇论文
《Texture Synthesis by Non-parametric Sampling》
非参数化的暴力求解法

-------------------------------------------------------------------------------------------

《Image style transfer using convolutional neural networks》
背景：第一篇使用CNN计算进行风格迁移的文章

总体技术思路：
           （1）基于optimization-based的迭代优化技术。
           （2）使用CNN的特征提取能力，底层特征图提取内容、文理等细节，高层特征图提取结构布局等风格。
           （3）限制合成图和风格图之间的风格损失，限制合成图和内容图之间的内容损失，保证合成图的风格趋于风格图，内容趋于内容图。

Gram矩阵：同个layer不同特征图之间的相似度可以衡量图片风格之间的差异，Gram矩阵等价于（没有去中心化的）协方差矩阵

总损失=风格损失（Gram矩阵损失）+内容损失+总变分损失。

-------------------------------------------------------------------------------------------

《Instance Normalization: The Missing Ingredient for Fast Stylization》
背景：
（1）发现不使用IN归一化技术，风格迁移存在问题：训练数据越多，效果反而越差；训练次数越多，效果没有提升等问题。
（2）用于风格迁移，发现batch normalization存在伪影等问题，训练不稳定。
目的：IN实例归一化，以单个样本（实例）作为归一化目标，不在多个样本（batch）之间执行0均值、1方差的跨样本归一化。

-------------------------------------------------------------------------------------------

《Combining Markov Random Fields and Convolutional Neural Networks for Image Synthesis》
背景：
计算生成图和风格图的之间差异时，不能只考虑pixel像素级别，还需要考虑空间布局限制（patch级别）。

技术方案：基于optimization-based技术，需要不断反向传播。

MRF特性：马尔科夫随机场，当前像素点和相邻像素点存在关联，即使用最近邻算法寻找合成图和风格图之间的最相似patch。

Loss=MRF损失+内容损失+总变分损失。

MRF损失：（1）选用relu3_1和relu4_1作为目标特征图，合成图各个patch和风格图的所有patch逐一匹配寻找最相似的patch，然后计算合成图patch和风格图patch之间的MSE，对合成图上全部【patch的损失】累加求和。
（2）patch大小3×3，stride=1的密集滑窗采样
（3）怎么处理反向传播：预计算风格图的patch集合作为卷积核，参与合成图的卷积计算。
内容损失：选用rele4_2，合成图和内容图之间的特征图计算MSE。
中变分损失：x轴和y轴方向相邻像素计算差值求和（先abs再sum），保证图像平滑性。

提升合成图质量：multi-resolution多分辨率-特征金字塔结构，由低分辨率到高分辨率，低分辨率的合成图作为高分辨率的输入。

优点：舍弃Gram矩阵，使用MRF限制空间布局特征，使得提升内容质量。速度一般，可以任意风格合成。

-------------------------------------------------------------------------------------------

《Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization》
背景：基于优化的方法，可以对任意风格迁移，但速度太慢了。

技术方案：（1）基于encoder-AdaIN-decoder结构，decoder端直接生成目标合成图。
（2）作者发现特征图的均值和方差也可以刻画风格
（3）将风格图的均值μ和方差σ对齐到合成图的均值μ和方差σ上，通过计算前后μ和σ的差异来限制合成图的风格。

总损失 = 内容损失 + 风格损失
       （1）内容损失：以relu_4_1特征图为目标，计算合成图和内容图之间的mse
       （2）风格损失：以rule1_1、rule2_1、rule3_1和relu4_2特征图为目标，计算内容图执行AdaIN操作后的μ和σ，与风格图的μ和σ之间的mse，累加全部layer的均值和方差的mse损失。

优点：速度快，任意风格合成。

-------------------------------------------------------------------------------------------

《Arbitrary Style Transfer with Style-Attentional Networks》
背景：存在任意风格迁移，但合成图局部失真，不够精细问题。

技术方案：本质上还是属于decoder的方法，但融合了attention机制。
attention的做法：计算内容图各个空间像素点和风格图各个空间像素大的相似度（softmax）得到mask特征图（尺寸为b×h×w），将mask特征图和风格图特征图对应空间位置相乘得到结合attention的内容-风格特征图。

更多学习笔记可以关注我的微信公众号「kelly学技术」，欢迎交流。

-- 未完待续 --

kelly学技术

关注

1
点赞
踩
20

收藏

觉得还不错? 一键收藏
1
评论
图像风格迁移总结

图像分割迁移总体上分类2大类：基于优化的方法和基于decoder的方法。下面按照发展阶段梳理：文理合成的第一篇论文《Texture Synthesis by Non-parametric Sampling》非参数化的暴力求解法-------------------------------------------------------------------------------------------《Image style transfer using convolutional ne
复制链接

扫一扫

专栏目录