文章目录
这一章节主要讲的是GAN的一些基础知识
![](https://i-blog.csdnimg.cn/blog_migrate/feb0d52b7bf12769506c2c11073857ae.png)
distribution在蓝色区域才能生成人脸,否则会很模糊。
![](https://i-blog.csdnimg.cn/blog_migrate/921dd2470295e1839363f55446df1aae.png)
那怎么找出这个distribution?
用最大似然估计,这里要有点相关基础。可见 https://www.jianshu.com/p/f1d3906e4a3e
![](https://i-blog.csdnimg.cn/blog_migrate/add2406dc074169a9b5826a92f7e5133.png)
这个过程相当于最小化KL散度。
以下这个过程有点像在凑KL散度的定义式,KL散度表征的是两个概率分布的差异,两者差异越小越好。
第六行后面被减的部分是自己加上去的。 P d a t a ( x ) {P_{data}}(x) Pdata(x)服从Gaussian分布,可以积分。
(为啥G输入的不是一个随机data?)
![](https://i-blog.csdnimg.cn/blog_migrate/cd47f19b18633675b78987e17d8c13a3.png)
如何定义一个通用 P G {P_G} PG?不可能都定义成高斯。
把G化成一个network。让 P G {P_G} PG和 P d a t a {P_{data}} Pdata越接近越好——最小化KL散度。
![](https://i-blog.csdnimg.cn/blog_migrate/ecf74d41a0c8aa3f60c8b4627976b0ca.png)
如何计算出divergence?因为不知道 P G {P_G} PG和 P d a t a {P_{data}} Pdata的公式。
从 P G {P_G} PG和 P d a t a {P_{data}} Pdata中取样出来一些样本
![](https://i-blog.csdnimg.cn/blog_migrate/33b52ca7303b011b02b3f56d9f3ee468.png)
怎么divergence?
通过D,写出一个目标函数。和二元分类有点像。
![](https://i-blog.csdnimg.cn/blog_migrate/d31825a5b926beaa1736609378255712.png)
当很难区分蓝色星星和红色星星时,就无法再压低Loss。意味着它们已经很接近了,divergence很小。
![](https://i-blog.csdnimg.cn/blog_migrate/f285327efd4143fb68e7924aa80fbbb1.png)
(接下来一堆数学公式拉……)
![](https://i-blog.csdnimg.cn/blog_migrate/6b31ad1a6980642314004554dbec1ba7.png)
当D为多少?目标函数越大?
![](https://i-blog.csdnimg.cn/blog_migrate/e6588625d4cfca11363bd5416437d3ba.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e6588625d4cfca11363bd5416437d3ba.png)
把D代入右上角的式子里,最后一行分子和分母都同除以2,
![](https://i-blog.csdnimg.cn/blog_migrate/76358593a5df88cf1e2a8e9647aca00e.png)
并且提取出来:
![](https://i-blog.csdnimg.cn/blog_migrate/b531ac4a991b7d37804c28ea32842597.png)
得到:
![](https://i-blog.csdnimg.cn/blog_migrate/c07728f2e31d1518b99cff5f25cd5088.png)
坐标图表示,随着横坐标G的变化,选择不同的D会有不同的V。
![](https://i-blog.csdnimg.cn/blog_migrate/7af354a83a15b23075960e6ce3a1c296.png)
替换 D i v ( P G , P d a t a ) Div({P_G},{P_{data}}) Div(PG,Pdata)
![](https://i-blog.csdnimg.cn/blog_migrate/89b9b74989e59cdbf4ad8f1408331afa.png)
最大化 V ( G , D ) V(G,D) V(G,D)——在不同种G时,选择最大的V,即为最优。
![](https://i-blog.csdnimg.cn/blog_migrate/e5ff1d4678f9853882cd2f0cb36e25ab.png)
最小化 max D V ( G , D ) \mathop {\max }\limits_D V(G,D) DmaxV(G,D)——即在三个最大的点上选择最小的那个V。在这个例子中应该为 G 3 {G_{\rm{3}}} G3。纵坐标零点可以理解为 P d a t a {P_{data}} Pdata,V到横坐标的距离就是表示G生成的样本和真实样本的距离,该距离越小越好。
![](https://i-blog.csdnimg.cn/blog_migrate/3e8d9fd31c001089699c865a70e5fe57.png)
如何解这个min max问题?
![](https://i-blog.csdnimg.cn/blog_migrate/954b27e478616bf28649e649fd370e38.png)
为什么说上图可以解决min max问题?
max D V ( G , D ) \mathop {\max }\limits_D V(G,D) DmaxV(G,D)可以先看成 L ( G ) L(G) L(G),然后用梯度下降,更新G。
![](https://i-blog.csdnimg.cn/blog_migrate/0a24d8114a0dd167abe59aa62f4f2319.png)
![](https://img-blog.csdnimg.cn/20181108103424351.png?x-oss%20process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NpbmF0XzMyNTEyMTIz,size_16,color_FFFFFF,t_70)
![](https://i-blog.csdnimg.cn/blog_migrate/214b2a03077eccd511f4cb7bde827f29.png)
为什么打问号?
因为这个过程不等同于JS散度。如下图,V反而变高了。
所以D要多训练几次,G要训练少一些。否则会过训练。
实际上,这个过程是用Sample的方式,这个过程相当于在train一个二维分类。D因通过sigmoid函数所以输出的值的范围是0~1。
算法总结如下对D train几步,得到相对的收敛,
Learning D的过程是在量出JS散度,Learning G的过程是在减小JS散度。
G不能训练太多次。
在实际执行中G的目标函数,一开始因为先训练D,所以G输出的再通过D会是很小的值。为了方便计算,如下图改下公式,趋势不变,整体向上移动,但斜率会变得完全相反。这样计算会比较容易。如果用下面的式子,二维分类的话label换一下就行。这里老师说的是train D时Maxmize的code。
最后让D会无法分辨出G生成的样本
demo:最后让蓝点(G生成的样本)与绿点(真是样本)结合
下图表示了一个矛盾点,右上角显示有data的地方有值,没data的地方没有值。而课程中的是这样的:有data的值比较大,没data的值比较小。
D train到后面,不知道会不会坏掉。
当G变的时候,到底应不应该sample上一次的G。