初探Stable Diffusion:开启AI图像生成的新纪元

初探Stable Diffusion(SD)

Stable Diffusion是由CompVis(慕尼黑大学)与Runway ML合作开发,并由Stability AI开源发布与维护的创新图像生成技术。

  • 首次发布:2022年8月,Stability AI发布了Stable Diffusion 1.4版本。
  • 持续更新:后续版本如1.5、2.x以及SDXL也在其主导下推出。

Stable Diffusion基于**潜在扩散模型(Latent Diffusion Models, LDMs)**实现,是一种支持文本到图像生成(Txt2Img)的模型。

相关学术研究包括:

  • 《High-Resolution Image Synthesis with Latent Diffusion Models》(LDMs - CVPR2022)

#1. SD网络结构组成

Stable Diffusion的网络结构由以下三部分组成:

组件作用是否可微调
Text Encoder将文本提示词(Prompt)编码为语义向量通常冻结(CLIP 固定)
VAE(变分自编码器)图像与潜空间(Latent Space)的相互转换可微调(如优化色彩)
U-Net在潜空间中迭代去噪,生成高质量潜变量主要训练部分
调度器(Scheduler)控制去噪过程的步数和噪声策略(如 DDPM、DPM++)可替换,无需训练
Text Prompt
Text Encoder
Text Embeddings
Random Noise
U-Net
Denoised Latents
VAE Decoder
Final Image

#2. 图像尺寸对SD模型的影响

SD1.5在512×512尺寸的图像上进行预训练,因此建议微调训练时也使用该尺寸。不同尺寸的输入可能导致以下问题:

  • 细节丢失:使用较小尺寸(如256×256)训练时。
  • 结构畸形:使用较大尺寸(如1024×1024)训练时,因为模型未系统学习过更高分辨率的特征。

请添加图片描述

图.基于SD1.5生成的图像

#3. 预训练数据集

1️⃣核心数据集:LAION-5B
属性描述
数据规模58.5 亿条图文对(图像+文本描述)
数据来源从公开网页爬取(Common Crawl),经过滤后保留高质量样本
内容覆盖多语言、多领域(艺术、照片、插画、图表等)
分辨率大部分图像≥512x512,部分≥1024x1024
过滤条件使用CLIP模型筛选图文相关性(相似度≥0.28)和NSFW内容
2️⃣关键数据子集

(1) LAION-2B-en

  • 语言:英语文本描述
  • 用途:SD1.5 主要训练集,覆盖广泛视觉概念

(2) LAION-Aesthetics

  • 筛选标准:人工标注美学评分≥6.0(满分10)
  • 作用:提升生成图像的视觉质量

(3) LAION-NSFW

  • 内容:明确标记的成人内容
  • 处理:SD1.5 训练时已移除,但可能残留部分隐式特征

到底咯,如果这篇文章对您有些许帮助,请帮忙点个赞👍或收个藏📃。您的支持是我继续创作的动力💪!


这是笔者4月份最喜欢的句子之一,送给你:
当暴风雨⚡️过去,你不会记得自己是如何度过的,你甚至不确定暴风雨是否真的结束了。但你已经不再是当初走进暴风雨的那个人了,这就是暴风雨的意义💪。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

北上ing

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值