前言:目前Image-to-Video的视频生成模型,图片一般会经过VAE Encoder和Image precessor,导致图片中的信息会受到较大损失,生成的视频在细节信息上与输入的图片有较大的出入。这篇博客结合最新的论文和代码,讲解如何解决Image-to-Video模型视频生成模糊的问题。
目录
问题原因
原因一
现在的视频扩散模型大部分都是latent diffusion的结构,因为所有的操作都要在潜在域上操作,先经过VAE encoder,操作完再经过VAE decoder,这个过程会导致信息损失。