StabilityAI发布Stable Cascade在Comfyui中使用他

最新推荐文章于 2024-08-02 17:14:42 发布

KK_crazy

最新推荐文章于 2024-08-02 17:14:42 发布

阅读量510

点赞数 5

文章标签： stable diffusion chatgpt ai绘画

本文链接：https://blog.csdn.net/weixin_42373241/article/details/136148881

版权

StabilityAI宣布推出研究预览版的Stable Cascade，极大地降低了对硬件的要求。

本地版本Comfyui Cascade工作流
https://pan.quark.cn/s/76fc9e2a88f8

在这里插入图片描述

这是一个建立在Würstchen架构之上的创新文本到图像模型。Stable Cascade的显著特点在于其采用的三阶段方法，这种方法不仅在图像质量、灵活性和微调能力上达到了新的高度，而且极大地降低了对硬件的要求，使得在普通消费级硬件上进行训练和微调变得轻而易举。为了支持用户更深入地探索和利用这一新架构，我们提供了一系列的资源，包括检查点、推理脚本，以及专门用于微调和优化的ControlNet和LoRA训练脚本。所有这些资源都可以在Stability的GitHub页面上轻松获取。目标是通过Stable Cascade，进一步消除硬件限制，让更多研究者和开发者能够参与到这一领域的创新中来。此外，鼓励用户利用diffusers库中的推理代码，来进一步定制和优化模型，以实现更多样化的图像生成效果。

技术细节

Stable Cascade 与我们的 Stable Diffusion 系列模型不同，它建立在由三个不同模型组成的流水线上：这种架构允许对图像进行分层压缩，在利用高度压缩的潜空间的同时实现出色的输出。让我们看看每个阶段，了解它们是如何组合在一起的：
在这里插入图片描述

通过将文本条件生成（阶段 C）与解码到高分辨率像素空间（阶段 A 和 B）解耦，我们可以在阶段 C 上单独完成额外的训练或微调，包括控制网络和 LoRA。可以选择对阶段 A 和阶段 B 进行微调，以实现额外的控制，但这与微调稳定扩散模型中的 VAE 相似。对于大多数用途而言，这只会带来极小的额外好处，因此我们建议只训练阶段 C，并在原始状态下使用阶段 A 和 B。

在这里插入图片描述

阶段 C 和阶段 B 将以两种不同的模型发布：建议在 C 阶段使用 3.6B 模型，因为该模型的输出质量最高。不过，对于那些希望将重点放在最低硬件要求上的用户，也可以使用 1B 参数版本。对于 B 阶段，两者都能达到很好的效果，但 15 亿参数版本在重建精细细节方面更胜一筹。得益于 Stable Cascade 的模块化方法，推理所需的 VRAM 预计可控制在 20GB 左右，但也可通过使用较小的变体进一步降低（如前所述，这也可能会降低最终输出质量）。

稳定级联对效率的关注体现在其架构和更高的压缩潜空间上。尽管与 Stable Diffusion XL 相比，它的最大模型包含 14 亿个参数，但推理时间仍然更快，如下图所示。

附加功能

除了标准的文本到图像生成外，Stable Cascade 还能生成图像变化和图像到图像生成。

图像变化的工作原理是使用 CLIP 从给定图像中提取图像嵌入，然后将其返回给模型。下面是一些输出示例。左边的图像是原始图像，右边的四幅是生成的变体图像

图像到图像的工作原理是在给定图像中添加噪点，然后以此为起点进行生成。下面是一个对左侧图像添加噪点，然后以此为起点进行生成的示例。

培训、微调、控制网和 LoRA 代码

随着稳定级联的发布，我们将发布用于训练、微调、ControlNet 和 LoRA 的所有代码，以降低进一步试验此架构的要求。以下是我们将与模型一起发布的一些控制网：

内绘/外绘：输入一张图片，并配上一个遮罩，以配合文字提示。然后，模型将根据提供的文本提示填充图像的遮罩部分。

2 倍超分辨率：将图像的分辨率提升至其边长的 2 倍（例如，将 1024 x 1024 图像输出为 2048 x 2048），也可用于 C 阶段生成的潜像。

KK_crazy

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
StabilityAI发布Stable Cascade在Comfyui中使用他

Stable Cascade的显著特点在于其采用的三阶段方法，这种方法不仅在图像质量、灵活性和微调能力上达到了新的高度，而且极大地降低了对硬件的要求，使得在普通消费级硬件上进行训练和微调变得轻而易举。此外，鼓励用户利用diffusers库中的推理代码，来进一步定制和优化模型，以实现更多样化的图像生成效果。Stable Cascade 与我们的 Stable Diffusion 系列模型不同，它建立在由三个不同模型组成的流水线上：这种架构允许对图像进行分层压缩，在利用高度压缩的潜空间的同时实现出色的输出。
复制链接

扫一扫