这个图片先说了这一个博客,是一个科普文,这个可以很好的介绍Generative Models。
我们目前做的是让机器识别出哪些是猫还是狗,但是机器可能不知道这个猫是什么。所以未来我们想让计算机画出东西来,例如画出一只猫
Genreative Models有三个方法
例如上面的pixels,一个三维vector代表一个pixel,然后用一个pixel来预测下一个pixel,然后用这个两个pixel来预测下一个pixel。PixelRNN是最清晰的
这个是例子
还例如WaveNet应用到语音合成这个例子。这个图片有一个动画效果没展示出来
这个是李宏毅老师做的,创造宝可梦的例子。原图是40×40,进行截取到20×20来训练
如果只是用pixel来做的话。这样RGB的值会都是差不多,然后就是灰色、棕色。(因为0,255这样的值比较难单独获取,鲜艳的颜色,一般是一个通道的数值会比较突兀,例如绿色(0,255,0))。
然后我们会采取一个做法,就是每个pixel用一个one-hot 变量来表示。但是这样表示太多了,有
25
6
3
256^3
2563种可能。所以我们会有一个聚类来吧相似的聚成一起,这样处理完之后会有167种colors
就像下面的表示,0、1、2等都会有对应的具体的表示,然后我们做下面的LSTM的实验。
之前会留有几张machine从来没见过的。然machine来预测cover的图片应该是什么形状
如果是单纯的auto-encoder,就是截取后面的网络,然后随机产生一个vector作为code来传入给NN Decoder
VAE会在里面NNencoder设置新的输出,NN Encoder输出两个新的数值,再加上一个normal分布产生的
e
1
e_1
e1、
e
2
e_2
e2、
e
3
e_3
e3,来组成新的
c
1
c_1
c1、
c
2
c_2
c2、
c
3
c_3
c3。在损失函数上,不仅Minimize输出和输入还有minimize右下的公式
使用的数据
创造新的宝可梦。训练好网络之后,在左下的随机选出点来输入到NN Decoder中来产生
C
1
C_1
C1(图片)
这个是对应的点输入进来产生的图片
会发现一个做的还不错的图片
还有的用来写诗的