一文读懂GAN, pix2pix, CycleGAN和pix2pixHD

本文深入讲解了GAN、pix2pix、CycleGAN和pix2pixHD在图像生成领域的应用。GAN虽有局限,如缺乏用户控制和低分辨率问题,但通过pix2pix和CycleGAN的改进,可以实现成对和不成对数据的图像转换。pix2pixHD则通过金字塔方法解决了高分辨率图像生成的难题,支持实时图像增强和编辑。
摘要由CSDN通过智能技术生成

本文翻译、总结自朱俊彦的线上报告,主要讲了如何用机器学习生成图片。

来源Games2018 Webinar 64期 :Siggraph 2018优秀博士论文报告

人员信息

主讲嘉宾

姓名朱俊彦(Jun-Yan Zhu)
现状:麻省理工学院博士后(PostDoc at MIT),计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Laboratory, CSAIL)
个人主页http://people.csail.mit.edu/junyanz/

主持人

周晓巍
现状:浙江大学CAD&CG国家重点实验室
个人主页http://www.cad.zju.edu.cn/home/xzhou/

报告内容

这是机器学习滴时代!

计算机视觉(Computer Vision, CV)领域近年来发生了巨大的变化。在2012年之前,CV的主要研究方法是使用**人工设计(hand-designed)**的特征完成各种任务(见下图)。
这里写图片描述

2012年使用深度神经网络(Deep Neural Network, DNN) 在ImageNet的分类任务上取得了巨大成功(见下图)。
这里写图片描述

从此**深度学习(Deep Learning)**的相关研究如火如荼地展开了,比如说下面这三个栗子:

  1. 物体识别(Object detection) [Redmon etal., 2018]
  2. 对人体的理解(Human understanding) [Guler et al., 2018]
  3. 自动驾驶(Autonomous driving) [Zhao et al., 2017]

这里写图片描述

图形学中的尝试:趁手的武器 or 白费功夫?

在传统的图形学管线(pipeline)中,输出图像需要经过建模、材质贴图、光照、渲染等一系列繁琐的步骤(见下图)。
这里写图片描述

现在大家看到了Deep Learning的潜力,那我们自然的就有个想法:有没有可能使用Deep Learning简化计算机图形学(Computer Graphics)的研究呢?

一个直接的想法是把DNN“倒过来用”。之前的DNN可能是输入一幅图像,输出一个标签(比如说猫),那我们能不能输入“猫”这个字,输出一张猫的照片呢?
这里写图片描述

很遗憾,答案是No!因为这种任务实在太复杂啦!我们很难让DNN凭空输出图像这样的高维数据(High dimensional data)(这里的“高维”可以理解成数据量大)。实际上,在很长一段时间里,DNN只能输出数字这种简单的、低分别率的小图像,就像下面这样:
这里写图片描述

而想要生成想游戏场景这类的图片,这种方法根本没用。所以,我们必须得想出更厉害滴东西完成这项任务(使命感爆棚)!

GAN就完了?Naive!

于是…在月黑风高的某一天(画风逐渐跑偏),一个叫做生成对抗网络(Generative Adversarial Network)——也就是大名鼎鼎的GAN——的东西横空出世。作者是下面这位小哥和他的小伙伴们:
这里写图片描述

那么,我们该怎么GAN出图像呢?且听我细细道来~

一般来说,GAN中包含两种类型的网络 G G G D D D。其中, G G GGenerator,它的作用是生成图片,也就是说,在输入一个随机编码(random code) z z z之后,它将输出一幅由神经网络自动生成的、假的图片 G ( z ) G(z) G(z)

另外一个网络 D D DDiscriminator是用来判断的,它接受 G G G输出的图像作为输入,然后判断这幅图像的真假,真的输出1,假的输出0。

这里写图片描述

在两个网络互相博弈(金坷垃日本人:不邀哒架)的过程中,两个网络的能力都越来越高: G G G生成的图片越来越像真的图片, D D D也越来越会判断图片的真假。到了这一步,我们就能“卸磨杀驴”——丢掉 D D </

  • 260
    点赞
  • 846
    收藏
    觉得还不错? 一键收藏
  • 36
    评论
评论 36
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值