GAN系列(二) —— Pix2Pix模型基于GAN的图像翻译

最新推荐文章于 2024-09-13 11:13:51 发布

hxxjxw

最新推荐文章于 2024-09-13 11:13:51 发布

阅读量1.2k

点赞数

文章标签： GAN Pix2Pix

本文链接：https://blog.csdn.net/hxxjxw/article/details/107994207

版权

Pix2Pix是一个基于GAN的图像翻译模型，

根据一张图像去生成一张新的图像，内容上和原图像是类似的，但是内容表达形式是不同的，比如一个包包，原图是彩色图，生成图是手绘图

图像翻译

Pix2Pix模型

在一般的GAN中，G生成图像，D判断是不是G得出的图像是不是真实图像

而在pix2pix中不同的是，D需要判断G生成的是不是一个真实的图像，还要判断是不是和之前的输入图像相匹配的图像

G的输入也不再是随意随机向量了，而是一个原始图像

判别器输入的是一对图像

G模型结构——U-Net

先做encoder再做decoder，使图像经过卷积层先变得比较小，然后再经过反卷积层变大，回到原来的尺寸

这样做的好处：

①使得中间的图像变小，计算量变小，提升计算速度

②先变小后变大可以使得结果图像中的每一张图像可以在原始图像中有一个较大的视野域，从而保证生成的结果比较好

U-Net是encoder-decoder的一个变体

在U-Net中里拼接

U-Net的名字就来源于此

图像翻译的效果

Pix2Pix vs DCGAN

G和D的输入输出不同

G的输入从一个随机向量变成了一张图像，因此我们就不能纯使用反卷积的结构，而是使用了一个先卷积再使用反卷积，也就是类似于transformer的结构，一个encoder-decoder结构

D还需要判断图像是否是一对