StyleBank 学习小记:一个可以分离风格与内容的图像风格转换器

本文详述StyleBank的工作原理,包括网络结构、训练策略和特性。StyleBank通过分离内容与风格,实现图像风格转换。它使用Encoder、Decoder和StyleBank Layer,以保留内容并学习多种风格。训练策略涉及身份损失、VGG-16网络和Gram Matrix。StyleBank支持增量学习,适用于风格融合等场景。
摘要由CSDN通过智能技术生成

实现代码:https://github.com/yjc567/StyleBank

本文是对文章 StyleBank: An Explicit Representation for Neural Image Style Transfer 的整理,以及自己重现其实验的结果和查阅相关资料的记录。

大纲

本文的大体内容分为以下几点:

  1. StyleBank的网络结构
  2. StyleBank的训练策略
  3. StyleBank的特性与优点
  4. StyleBank的参数调整对实验结果的影响
  5. 训练结果分析
  6. Instance normalization简介
  7. Total Variation(TV)loss简介
  8. 将VGG net用于特征抽取,以及Gram Matrix 简介
  9. 对FRIQA和SSIM两个图像质量评价方法的介绍
  10. 反思
  11. 参考文献

因为时间有限,加上自己的实验还没有完全结束。所以本文着重于讲述[1, 2, 6, 7, 8]这几个偏向理论的部分,其余部分留在下一次的实验报告中提交

StyleBank的网络结构

网络结构

  1. 图片编码器(image encoder) E
  2. StyleBank层(StyleBank layer) K ,其中包括 n 个并行的过滤器(filter,在本文中,使用cnn作为filter) {Ki},(i=1,2,,n) ,对应n个不同的风格。
  3. 图片解码器(image decoder) D

![StyleBank网络结构.png](C:\Users\yjc56\iCloudDrive\study\Machine Learing\Project1_StyleBank\elements\StyleBank网络结构.png)

训练分枝

  1. 自动编码器(auto-encoder)分枝 ED
  2. 风格化(stylizing)分枝 EKD

训练的目标是使图像的内容(content)经过 E D 后尽可能的不会损失。同时图像的风格信息会被StyleBank加入,以在保持内容的同时将图像用不同风格表现出来。也就是希望网络可以尽可能地将图像的内容和风格分离开。

输入与输出

输入一个图像(content image) I ,编码器 E 会从这个图像抽取出多层特征(multi-layer feature maps) F ,即: F=E(I)

ED 分枝中,直接将 F 传给解码器 D ,得到输出图像 O ,即 O=D(F) ,输出图像 O 应该和输入图像 I 尽可能的接近,这也是我们训练的目标

EKD 分枝中, F 还需要通过 K 中的某一层 K

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值