一、img2img核心机制与技术架构
1.1 扩散模型的双向流动
Stable Diffusion的img2img模块基于潜在扩散模型(Latent Diffusion Model)构建,其核心逻辑是将输入图像编码为潜空间特征,再通过逆向扩散过程生成新图像。这一过程可分为三个阶段:
- 正向扩散:将输入图像通过VAE编码器压缩为4×4的潜空间特征(Latent Space),并叠加高斯噪声。噪声强度由
Denoising strength
参数控制,该参数决定了图像的破坏程度。 - 逆向去噪:UNet网络在文本提示的引导下,逐步去除噪声。这一过程通过
Sampling steps
参数控制迭代次数,通常设置为20-50步。 - 特征解码:VAE解码器将去噪后的潜空间特征还原为像素级图像,最终输出结果。
1.2 图像条件注入技术
img2i