生成对抗网络——研讨会

45度仰卧起坐

已于 2023-12-04 16:26:47 修改

阅读量1.9k

点赞数 31

文章标签：生成对抗网络人工智能神经网络

于 2023-12-03 12:28:19 首次发布

本文链接：https://blog.csdn.net/qq_36820823/article/details/134760668

版权

时隔一年，再跟着李沐大师学习了GAN之后，仍旧没能在离散优化中实现通用的应用，实在惭愧，借着组内研讨会的机会，再队GAN的前世今生做一个简单的综述。

GAN产生的背景

目前与GAN相关的应用

去reddit社区的机器学习板块，可以看到很多网友提出GAN的应用

1.将韩国明星和马斯克的脸替换到JOJO的人物脸上
在这里插入图片描述
2. 视频里换脸，换背景。把一个真人的采访视频的脸换成动漫的。

3.给一个人的照片，再给个发型颜色，给照片里的人换发型。

4.把视频里的人脸换成动漫的脸，并且让动漫人物做出和人相同的动作。
在这里插入图片描述
这种换脸技术的出现，让加州颁布法律，明令禁止，这种换脸技术用到官员身上，避免用公众人物的样貌说出一些社会影响恶劣的话。

GAN文献检索结果

GAN 这篇文章2014年发表在NIPS上，到2023年12月3号已经有6w多次引用了。
在这里插入图片描述
在WOS的已入库能检索的SCI论文关于GAN为主题的就有1.7w篇之多。

从出版的数量来看，从14年开始GAN横空出世后，每年的文章数量猛增，目前在每年4000篇左右的数量。可见热度及其高。

以GAN为标题的直接的文章有448篇。
在这里插入图片描述
在知网中检索中文论文，以生成对抗网络为主题可以检索出7000多篇论文，其中一半以上是学位论文，4000篇是关于自动化技术。可见在国内期刊上，GAN也是十分火热的研究热点。

在19年到现在，每年都有1000多篇论文是讨论GAN的。
在这里插入图片描述

GAN之父——Ian的简介

希望简单介绍作者的成长背景，为大家提供借鉴，学习别人的成长路径，如何规划自己的学术生涯，以及如何做出开创性的工作，当时是什么情况，是如何想到的。

GAN的作者Ian J. Goodfellow是一名加州长大的美国人，被誉为"GAN之父"。目前谷歌学术的引用已经到了27w，目前是任职于谷歌的DeepMind，之前在苹果担任ML部门的总监，离职部分原因是需要在办公室上班，目前在goolge可以继续远程办公。其代表性的工作，GAN和Deep Learning《花书》已经达到6w的引用次数。其博导为深度学习三巨头之一的，图灵奖的获得者，加拿大蒙特利尔大学（Université de Montréal，AI领域的顶尖院校）的“Yoshua Bengio”。
在这里插入图片描述
机器学习领域最重要的教材西瓜书

深度学习领域最重要的教材花书

Ian 的本科和硕士就读于Standford大学，导师是闻名世界的Andrew Wu(吴恩达)。在本科时候就展现了过人的天赋，“我本科时就开始学习人工智能了。那个时候，机器学习主要还是 SVM、boosted trees 等等。业余时间，我也写写游戏程序，会用 GLslang 完成一些小项目。一次，我的朋友 Ethan Dreyfuss（现在在 Zoox 工作）向我提到了两件事：Geoff Hinton 发表了一个关于 DBN（深度信念网络）的技术演讲；还有 CUDA GPUs，这些东西在当时都是很新鲜的。我意识到，深度学习可以弥补 SVM 的很多缺陷。一方面，SVM 在模型设计上并没有很大的自由度，而且即便投入很多的数据，它也没法变得更只能。但深度神经网络可以。另一方面，CUDA GPU 将训练更大的神经网络变为可能，而且我已经从游戏编程中学会了编写GPU代码。在寒假期间，我和 Ethan 开始在斯坦福大学搭建第一台 CUDA 机器，用它训练玻尔兹曼机。”——来自采访中Ian自己的话，在读本科时，Ian经常去找吴恩达请教问题，随后硕士就跟着吴恩达读。随后硕士毕业后进入的Bengio的组内继续攻读博士。

在2014 年的一个晚上，Goodfellow 在酒吧给师兄庆祝博士毕业。一群工程师聚在一起不聊姑娘，而是开始了深入了学术探讨——如何让计算机自动生成照片。当时研究人员已经在使用神经网络（松散地模仿人脑神经元网络的算法），作为“生成”模型来创建可信的新数据。但结果往往不是很好：计算机生成的人脸图像要么模糊到看不清人脸，要么会出现没有耳朵之类的错误。针对这个问题，Goodfellow 的朋友们“煞费苦心”，提出了一个计划——对构成照片的元素进行统计分析，来帮助机器自己生成图像。Goodfellow 一听就觉得这个想法根本行不通，马上给否决掉了。但他已经无心再趴体了，刚才的那个问题一直盘旋在他的脑海，他边喝酒边思考，突然灵光一现：“为什么要学习似然函数，我干脆用一个MLP去拟合这个分布不就行了”，但朋友们对这个不靠谱的脑洞深表怀疑。Goodfellow 转头回家，决定用事实说话。写代码写到凌晨，然后测试…

Ian的个人主页 https://www.iangoodfellow.com/

引言

在这里插入图片描述
GAN这篇文章的名字为生成对抗网络。机器学习的任务分为两大类，第一类是分辨模型，主要任务是通过数据学习一套知识用于分辨数据类型或预测数据的值。第二类是生成模型，即如何根据已有的数据，生成和这些数据同分布的另一些新的数据。其中GAN的目的就是解决生成问题。GAN的名字并不是Ian提出的，和AlexNet一样，是后人为了便于称呼，便取名为GAN。

GAN的主要创新点是提出了一种新的基于对抗过程的生成框架，其中需要训练两个网络，一个是生成模型G用于抓取整个数据的分布，第二个是辨别模型D用于估计采样数据来自训练集的概率，而非生成器G。在统计学眼里，世界万物都是由数据分布组成的，数据类型可以是各种各样的，可以是视频，音频，图片，文本等。而这个训练过程是让G最大化一个概率去让D犯错，最后，让G可以骗过D生成以假乱真的数据。
在这里插入图片描述
在GAN的引言中说明，深度学习是一种数据分布的特征表示方法（Bengio强调的观点），绝不是一种神经网络的设计。而目前DL在辨别模型上表现的很好，源于大量的数据，反向传播算法和dropout算法。但在生成模型上做的不好。原因是最大化似然函数的时候，需要对概率分布做许多近似计算，而近似计算是十分困难的。似然函数是再统计数据分布之后，用一种函数来表示数据分布，再调整函数参数是的最大似然估计的效果最好，分布估计的最合理。但由于数据的复杂性，很多时候似然函数长什么样是难以估计的。这就导致之前的生成模型，都在做似然函数的近似拟合，而似然函数的拟合需要使用马尔科夫链进行复杂的采样，造成了计算上的困难，效率效果不好。所以GAN直接另辟蹊径，不去近似似然函数，而是去通过数据分布的拟合。这种方法不需要进行马尔科夫链，只需要通过两个MLP，通过反向传播算法，进行训练，最后生成接近真实数据的fake数据。
在这里插入图片描述
在相关工作中，之前的生成模型的方法都是去构造一个数据分布的最大似然函数，并设置一些可训练的参数来近似。这通常都需要多次的近似。所以非常麻烦。同时自编码器，VAEs是一类和GAN非常相似的工作，
在这里插入图片描述
VAEs详细介绍

VAEs和GAN的区别
VAEs提前拟合似然函数，GAN不知道数据的分布。
在这里插入图片描述
GAN与NCE算法类似，但NCE算法局限于辨别器是由噪声分布和模型分布的概率密度函数的比值定义，因此需要同时通过BP训练并评估分子分母的密度，这种损失函数太复杂了，而GAN更简单。

GAN作者详细的论述了与PM算法的区别，总体来说是为了反驳当时这篇文章NIPS审稿人（Schmidhuber, Jurgen， LSTM的发明者，神经网络的奠基人之一）的comments, Jurgen认为GAN和他92年提出来的PM算法差不多，就是一种变种。所以两人在修稿的过程中进行了大量的battle，最后在NIPS大会的汇报上，Jurgen直接站起来指出Ian工作与PM是一样的，但被Ian无情反驳。
在这里插入图片描述