Pix2Pix是一个基于GAN的 图像翻译模型,
根据一张图像去生成一张新的图像,内容上和原图像是类似的,但是内容表达形式是不同的,比如一个包包,原图是彩色图,生成图是手绘图
图像翻译
Pix2Pix模型
在一般的GAN中,G生成图像,D判断是不是G得出的图像是不是真实图像而在pix2pix中不同的是,D需要判断G生成的是不是一个真实的图像,还要判断是不是和之前的输入图像相匹配的图像
G的输入也不再是随意随机向量了,而是一个原始图像
判别器输入的是一对图像
G模型结构——U-Net
先做encoder再做decoder,使图像经过卷积层先变得比较小,然后再经过反卷积层变大,回到原来的尺寸
这样做的好处:
①使得中间的图像变小,计算量变小,提升计算速度
②先变小后变大可以使得结果图像中的每一张图像可以在原始图像中有一个较大的视野域,从而保证生成的结果比较好
U-Net是encoder-decoder的一个变体
在U-Net中里拼接
U-Net的名字就来源于此
图像翻译的效果
Pix2Pix vs DCGAN
G和D的输入输出不同
G的输入从一个随机向量变成了一张图像,因此我们就不能纯使用反卷积的结构,而是使用了一个先卷积再使用反卷积,也就是类似于transformer的结构,一个encoder-decoder结构
D还需要判断图像是否是一对
GAN系列(二) —— Pix2Pix模型基于GAN的图像翻译
最新推荐文章于 2024-09-13 11:13:51 发布