生成模型1: Pixel RNN
产生图像时,每次产生一个像素点。也就是,训练一个网络,输入为一个三维的vector,输出为另外一个三维的vector。可以使用Pixel RNN进行图像生成、语音生成等。
如果需要练习,可以提供该课程提供的792个Pokemon突袭那个,图像为20*20大小,数据库地址。实验结果如下图:
生成模型2: VAE (Variational Autoencoder)
VAE生成语言,输入为sentence,输出也为sentence。对于输入的数据,在code space上进行等距连接,然后选取稍微偏移的点,进行decode,产生输出数据。这对应了autoencoder的方式,而生成对应了在code space中间加入了噪声,即下图中, m1,m2,m3 m 1 , m 2 , m 3 对应了编码的区间, σ1,σ2,σ3 σ 1 , σ 2 , σ 3 对应了编码的噪声,而指数化则将其转换为正数。