LAPGAN利用的是多个GAN一步一步的生成大的图片,而且LAPGAN的G网络和D网络的设计不是很优。DCGAN提出了只需要一个GAN就能够直接生成64*64的图片,并且给出了G网络和D网络的设计要点。DCGAN还发现了输入网络的Z向量,有着跟word2vec相似的功能,Z向量能够描述一张图片的语义。
DCGAN网络结构设计要点:
1、在D网络中用strided 卷积(stride>1)代替pooling层,在G网络中用fractional-strided 卷积代替上采样层。
2、在G和D网络中使用BN层
3、不要使用全连接层作为输出(LAPGAN中有)
4、G网络中除了输出层(tanh)都使用ReLu激活函数
5、D网络中都使用LeakyReLu激活函数
网络结构图:
DCGAN先利用全连接层将100维的z向量,变成4*4*1024的向量,然后reshape成4*4*1024的张量。然后使用ractionally-strided convolutions一步步上采样到64*64的图片。
训练细节:
1、预处理环节,将图像scale到tanh的[-1, 1]。
2、mini-batch训练,batch s