2.FSDR学习-摘要梳理后篇

kiki喜欢吃蛋糕

已于 2022-04-30 11:33:47 修改

阅读量2.5k

点赞数 1

分类专栏：论文学习文章标签：图像处理计算机视觉迁移学习

于 2022-03-06 19:44:03 首次发布

本文链接：https://blog.csdn.net/chengxuyuanzq/article/details/123314786

版权

论文学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一.研究方向

图片风格迁移：风格迁移(style transfer)，指的是保留图片内容(content)，将图片转换为目标风格(style)。
目前的风格迁移几乎大部分都是在GAN(生成对抗网络)的基础上组合AdaIn(适应性实体正则化)，加上vgg网络构成的感知损失(content loss)等来进行优化；还有较为经典的pixel2pixel、cycle gan等利用成对数据或者cycle loss进行图像翻译(Image Translation)任务等。
在这里插入图片描述
风格迁移后，普通的城市照片可以拥有各种各样的艺术感。

原始的风格迁移的速度是非常慢的。在GPU上，生成一张图片都需要10分钟左右，而如果只使用CPU而不使用GPU运行程序，甚至需要几个小时。这个时间还会随着图片尺寸的增大而迅速增大。这其中的原因在于，在原始的风格迁移过程中，把生成图片的过程当做一个“训练”的过程。每生成一张图片，都相当于要训练一次模型，这中间可能会迭代几百几千次。从头训练一个模型要比执行一个已经训练好的模型要费时太多。而这也正是原始的风格迁移速度缓慢的原因。
在这里插入图片描述
经过图像迁移后，我的电脑壁纸完全变了风格！

二.当前研究出现的问题

在这里插入图片描述
从这段我们可以得知，之前的算法对整张图片统一做随机化，不是很符合图像迁移，因为图片中有些领域和图片是无关的，但是领域相关的特征需要随机化。如果一概而论的做随机化，导致一些领域无关的也做了随机化，最后得到的是一个次优的结果。

三.本文算法思想

核心思想：图片经过JPEG压缩，FSDR通过显式解耦成64个不同的频率分量，通过这64个FCs去分辨他们是领域相关还是无关（domain），最终使那些领域无关的保持不动，随机化那些领域相关的FCs。

FC：Frequency component 频率分量
解耦：数学中是指使含有多个变量的数学方程变成能够用单个变量表示的方程组，即变量不再同时共同直接影响一个方程的结果，从而简化分析计算。通过适当的控制量的选取，坐标变换等手段将一个多变量系统化为多个独立的单变量系统的数学模型，即解除各个变量之间的耦合。最常见的有发电机控制，锅炉调节等系统。（来自百度百科）

经过显式解耦图片可以得到和领域无关的特征，可以使其影响最小。
FSDR步骤：

做谱分析（FSDR-SA）基于实证研究分辨DIFs和DVFs是有效的。
通过做谱学习（FSDR-SL）在动态和迭代学习过程中自动学会怎么分辨DIFs和DVFs。

通过DCT分到64个FCs，然后分辨不变的DIFs和变化的DVFs之后随机化的结果优于SSDR，更贴近Ground Truth。

DCT：Discrete Cosine Transform 离散余弦变换
将所有图片转到频率空间，然后将得到的信号转换为64个FCs。
DIF：domain invariant FCs (DIFs) 域不变的FCs
DVF：domain variant FCs (DVFs) 域可变的FCs
SSDR：传统的空间域随机化

以上是我对摘要的再一次解读，这一次我梳理清晰了文章的研究方向和核心思想。一篇学术文章的摘要是最重要的，读者读完后就应该明白文章的写作目的和阐述的大致内容。

kiki喜欢吃蛋糕

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2.FSDR学习-摘要梳理后篇

一.研究方向图片风格迁移：风格迁移(style transfer)，指的是保留图片内容(content)，将图片转换为目标风格(style)。目前的风格迁移几乎大部分都是在GAN(生成对抗网络)的基础上组合AdaIn(适应性实体正则化)，加上vgg网络构成的感知损失(content loss)等来进行优化；还有较为经典的pixel2pixel、cycle gan等利用成对数据或者cycle loss进行图像翻译(Image Translation)任务等。风格迁移后，普通的城市照片可以拥有各种各样的
复制链接

扫一扫

专栏目录