总结：图像生成网络

最新推荐文章于 2024-09-16 14:50:39 发布

三世

最新推荐文章于 2024-09-16 14:50:39 发布

阅读量1.3k

点赞数 14

分类专栏：图像处理文章标签：人工智能深度学习图像生成对抗网络

本文链接：https://blog.csdn.net/qimo601/article/details/136054096

版权

图像处理专栏收录该内容

30 篇文章

订阅专栏

1、最新的几款图像生成网络

eCNN
文献：Bahrami A, Karimian A, Fatemizadeh E, et al. A new deep convolutional neural network design with efficient learning capability: Application to CT image synthesis from MRI[J]. Medical physics, 2020, 47(10): 5158-5171.
经典的pix2pix
pix2pix是一种基于条件式生成对抗网络(CGAN)的图像转译模型，而条件式生成抵抗网络是生成对抗网络的一种扩展，它通过在生成器和判别器中引入条件信息来实现有条件的图像生成。生成器采用U-Net网络结构，融合底层细粒度特征和高层抽象；判别器采用patchGAN网络结构，在图块尺度提取纹理等高频信息。
那么简笔画猫转成真猫到底是一个什么原理腻，可以这样理解：你可以获取很多真猫的图片，用opencv的边缘提取，把每一张图片的边缘都给提取出来，构建一个像素到像素的映射数据集，也就是数据集包含两类图片，一类是边缘轮廓简笔画，另一类是真猫的图片，它们俩是一一对应的关系，所以pix2pix解决的是一个像素配对的图像转译问题，那么我们上次介绍的cyclegan呢解决的是一个非配对的图像转译问题。同样，这里也能用cyclegan来解决这些问题。image translation领域非常的好玩，既可以用配对的数据集去训练，也可以用不配对的数据集。

pix2pix是2017年的论文，现在看来比较老了，如果你现在还想做跟图像转译相关的项目的话，可以用更好更新的算法，比如UGATIT、StarGAN等。当然用pix2pix也是完全可以滴，但是要注意pix2pix使用起来可能会容易模式崩溃，训练不太稳定喔

文献：Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1125-1134.

pix2pix代码：https://github.com/phillipi/pix2pix
MedGAN,用GAN对医学成像进行迁移
MedGAN框架用Cas- Net作为生成器，通过一个对抗判别器从感知和像素角度进行惩罚，同时使用一个预先训练的特征提取器，以确保转换后的输出在样式、纹理和内容上与所需的目标图像匹配。
使用VGG-19网络作为特征抽取器，在ImageNet上做预训练。由5个卷积块组成，每个卷积块由2-4层和3个完全连接的层组成。虽然是在非医学图像上预训练的，但是VGG-19网络提取的特征在表示纹理和样式信息方面是有益的。
文献：Armanious K, Jiang C, Fischer M, et al. MedGAN: Medical image translation using GANs[J]. Computerized medical imaging and graphics, 2020, 79: 101684.
TransUNet：Transformers Make Strong Encoders for Medical Image Segmentation用于医疗图像分割的transformers编码器详解
设计的Idea：UNet +transformers的结合体，使用的具体模块:ViT+ResNet50+skip connection。
文献：Chen J, Lu Y, Yu Q, et al. Transunet: Transformers make strong encoders for medical image segmentation[J]. arXiv preprint arXiv:2102.04306, 2021.
参考解析：https://blog.csdn.net/weixin_43656644/article/details/123563646
CGAN：
-传统的GAN或者其他的GAN都是通过一堆的训练数据，最后训练出了G网络，随机输入噪声最后产生的数据是这些训练数据类别中之一，我们提前无法预测是那哪一个？

因此，我们有的时候需要定向指定生成某些数据，比如我们想让G生成飞机，数字9，等等的图片数据。
假设现在要做一个项目：输入一段文字，输出一张图片，要让这张图片足够清晰并且符合这段文字的描述。我们搭建一个传统的NeuralNetwork（下称NN）去训练。