pix2pixHD是pix2pix的重要升级,可以实现高分辨率图像生成和图片的语义编辑。对于一个生成对抗网络(GAN),学习的关键就是理解生成器、判别器和损失函数这三部分。pix2pixHD的生成器和判别器都是多尺度的,单一尺度的生成器和判别器的结构和pix2pix是一样的。损失函数由GAN loss、Feature matching loss和Content loss组成。
pix2pixHD论文官方介绍视频https://www.zhihu.com/video/1155283088488800256
pix2pix提供了一个统一的图像翻译(image-to-image-translation)的框架,整体的结构是conditional GAN。和原始conditional GAN不同的是,pix2pix生成器的输入没有噪声信息,只有条件信息。
生成器
生成器的结构是U net。有的GAN使用的是encoder-decoder模型作为生成器,但是相比之下,U-net效果会更好。因为上采样时加入了底层的特征信息。假设总共有n层,那么第i层和第n-i层之间有跳远连接。注意U-Net的跳远连接和ResNet的不同,和DenseNet相同,是按通道拼接的。Encoder-decoder和U-Net的结构 图片来自原论文
Encoder-decoder和U-Net生成图片效果对比 图片来自原论文
判别器 PatchGAN
不同于直接判断图片是否是真实的,PatchGAN会分别判断N x N个patch是否为真,然后求平均值输出。L1损失可以使模型学到低频的特征,PatchGAN