数据合成 —— Stable diffusion xl

最新推荐文章于 2025-01-13 14:58:24 发布

Liuffet

最新推荐文章于 2025-01-13 14:58:24 发布

阅读量626

点赞数 24

文章标签： stable diffusion

本文链接：https://blog.csdn.net/Silver_ljh/article/details/140830691

版权

文章目录

概要

stable diffusion xl在stable diffusion1.x到2.x的基础上增加了一个基于扩散模型的refiner层，用来提升图像生成的精细化程度；增加了训练tricks，包括图像尺寸条件化策略、图像裁剪条件化策略等；在xl推出前先推出了xl 1.0，针对性地增加数据集和使用RLHF来优化训练。

整体架构流程

SDXL Base模型由U-Net、VAE以及CLIP Text Encoder（两个）三个模块组成，在FP16精度下Base模型大小6.94G（FP32：13.88G），其中U-Net占5.14G、VAE模型占167M以及两个CLIP Text Encoder一大一小（OpenCLIP ViT-bigG和OpenAI CLIP ViT-L）分别是1.39G和246M。

SDXL Refiner模型同样由U-Net、VAE和CLIP Text Encoder（一个）三个模块组成，在FP16精度下Refiner模型大小6.08G，其中U-Net占4.52G、VAE模型占167M（与Base模型共用）以及