注:拉到最后有视频版哦~
论文地址:https://www.aaai.org/Papers/AAAI/2020GB/AAAI-LiW.3470.pdf
GitHub 地址:https://liweileev.github.io/FET-GAN/
文字版
本次给大家讲一篇做字体风格迁移的论文。是 AAAI20 浙大的工作。
我会从这 5 个方面开始我的介绍
背景
首先是背景,字体的风格让网站看起来很好看,字体风格的迁移能让我们复制一些好看的风格
动机
第二个是动机,在迁移风格的情况下保持字的内容不变是一个挑战,现有的方法在一些细小细节上处理不够到位
研究目标
第三是研究目标,文章想实现字体在多个风格域之间的变换
方法
然后来讲方法,先来看这个框架,由编码器 E,生成器 G 和判别器 D 组成
然后来看 E 和 G 的结构,E 抽取 source img 和 reference img 的特征加入到 G 中(AdaIN),G 根据 source img 和 E 提供的特征生成图片。
然后来看 D 的结构,其实就是一个 C 分类器,C 为风格种类数。
然后是 loss,第一个是特征的 loss,为了约束网络从某一个域内的图片都抽取出固定的特征。第二个是迁移 loss,这是为了让生成图片和目标域图片接近。第三个是重建 loss,目标域与源图片相同,让生成的图片和源域接近。
第四个 loss 是对抗的 loss,对于源域和目标域的图片都加有对抗 loss
对于一些没见过的风格,论文提出了一种微调策略。首先对这个新风格的图片进行数据增广,组成一个临时的数据集,以随机的 batch 进入预训练的 D,得到输出,在通道中选一个最大值。这个最大值作为 C+1 通道的初始化(因为是新的风格,所以作为第 C+1 个通道)。此时的训练集是有限的,其实也是某种意义上的 few-shot
实验
然后来看实验,首先是数据集,论文使用了两个数据集,一个是 TextEffects Dataset,它具有 70 个风格,第二个是 Fonts-100,具有 100 种字体风格
然后看对比试验,首先对比字体和风格的迁移。本文的方法不仅迁移了风格,还保持了很好的字体。对图像也是能 hold 住的
然后有一个我觉得挺有意思的实验,就是 K 对结果的影响。先说第一行,训练时候 K 的选择,即 E 的输入,发现 K 越大效果越好,也就是说 reference 图片越丰富,E 的学习效果越好。然后第二行,推理,此时用的是 K=4 时候训的模型,测试了一下推理时候的 K 的选择,发现不论选多少,效果差不多,这说明网络已经充分学习到了相同域图片内的风格。第三行,finetune 的时候,也是发现 K 越大越好,遇到新的风格,reference img 越多,效果越好
然后是消融实验,实验中的每个模块都很关键,去掉了都会掉很多性能。对于泛化能力,因为 finetune 时候目标域和源域是一起的,故重建和迁移后的图片经常是一样的。
然后是一些应用,直观看一下就行了
结论
文章结论就是 1. 达到了很好的迁移效果,2、能 hold 住新的风格 3、提了一个数据集
不足
不足就是好像泛化能力并没有那么强。。。
视频版
[AAAI2020]FET-GAN: Font and Effect Transfer via K-shot Adaptive Instance Normali
代码推理
[OpenBayes实现][AAAI2020]FET-GAN: Font and Effect Transfer via K-shot Adaptive Ins
Ref
https://blog.csdn.net/qq_43812519/article/details/105908399