1、任务
1) image-to-image translation
2) common framework,适用于各种场景
2、网络
(image) conditional GANs (cGANs):image x + random noise vector z -> y
1) Generator
基于U-Net的结构
2) Discriminator
卷积"PatchGAN"分类器,输入包括Generator的输入
关注以N x N的patch为单位的真实性,从而有助于学习到高频特征
相当于texture/style loss
3) loss
a) GAN loss (high-frenquency structure)
其中,Generator尝试最小化该loss,Discriminator尝试最大化该loss,即
b) L1 loss (low-frenquency structure)
Generator应当最小化该loss
3、训练和优化过程
1) Discriminator和Generator依次进行
2) 最小化 -> 最大化
3) Discriminator的loss/2,使得Generator的学习速度更快
4)minibatch SGD,Adam solver,lr=0.0002,momentum_beta1=0.5,momentum_beta2=0.999
4、测试/推断
1) 应用drop out
2) BN使用测试batch的参数(BS=1时相当于IN,对图像生成很有帮助)