概要
stable diffusion xl在stable diffusion1.x到2.x的基础上增加了一个基于扩散模型的refiner层,用来提升图像生成的精细化程度;增加了训练tricks,包括图像尺寸条件化策略、图像裁剪条件化策略等;在xl推出前先推出了xl 1.0,针对性地增加数据集和使用RLHF来优化训练。
整体架构流程
SDXL Base模型由U-Net、VAE以及CLIP Text Encoder(两个)三个模块组成,在FP16精度下Base模型大小6.94G(FP32:13.88G),其中U-Net占5.14G、VAE模型占167M以及两个CLIP Text Encoder一大一小(OpenCLIP ViT-bigG和OpenAI CLIP ViT-L)分别是1.39G和246M。
SDXL Refiner模型同样由U-Net、VAE和CLIP Text Encoder(一个)三个模块组成,在FP16精度下Refiner模型大小6.08G,其中U-Net占4.52G、VAE模型占167M(与Base模型共用)以及