一、DiT(Diffusion Transformer)的定义与架构
1. 定义
DiT(Diffusion Transformer)是一种结合了扩散模型(Diffusion Models)和Transformer架构的生成模型,主要用于图像和视频生成任务。其核心思想是用Transformer替代传统扩散模型中的U-Net架构,利用Transformer的全局建模能力提升生成质量与扩展性。DiT在潜空间(Latent Space)中操作,通过变分自编码器(VAE)将高维图像压缩为低维特征,从而降低计算复杂度。
2. 架构与核心组件
DiT的架构可分为以下几个关键模块:
-
输入处理
输入图像经过VAE编码为低维潜变量(如32×32×4的Latent),随后通过Patchify将潜变量划分为多个图像块(Patch),每个Patch通过线性投影转换为Token序列,并加入位置编码(固定正弦-余弦编码)。