在文字生成中,可以根据当前来推断下一个最有可能出现的字
采用同样的思想,我们也可以在影像生成中采取autoregressive
事实上,这种方法太耗费时间了,还可以采取一次到位的方法
不过一次到位时,结果不唯一,正确答案是一个分布
如图,虽然都是奔跑的dog,但图片的颜色,狗的大小,姿势都可以不同
但是如果我们要每一个又是独立生成的话,又会出现各画各的
这里老师都只是粗略讲了一下,我也不是很懂
所有可以视为答案的图片服从一个normal distribution
讲一个图片encoder成一个向量,用向量来表示normal distribution中的一个,然后还可以通过decoder解出来