[AIGC] 如何使用 Dreambooth 将任何东西放入Stable Diffusion（Colab notebook）

最新推荐文章于 2025-03-27 10:23:55 发布

RuntimeCube

最新推荐文章于 2025-03-27 10:23:55 发布

阅读量875

点赞数

分类专栏： AIGC 文章标签： AIGC stable diffusion

原文链接：https://stable-diffusion-art.com/dreambooth/

版权

AIGC 专栏收录该内容

25 篇文章

订阅专栏

本文详细介绍了Dreambooth，一种用于微调扩散模型如StableDiffusion的技术，通过3张图片训练自定义主题。教程适合初学者，涵盖了准备训练图像、调整大小、使用GoogleColab训练和测试的完整过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

英文原文：https://stable-diffusion-art.com/dreambooth/

Dreambooth 是一种将任何东西（您所爱的人、您的狗、您最喜欢的玩具）放入Stable Diffusion 模型的方法。我们将介绍 Dreambooth 是什么、它是如何工作的以及如何进行训练。

本教程针对的是已经使用过 Stable Diffusion 但之前没有使用过 Dreambooth 的人。

您将按照分步指南准备训练图像，并使用我们简单的一键式 Colab notebook进行 dreambooth 训练。无需编码！

您知道许多自定义模型都是使用 Dreambooth 进行训练的吗？完成本教程后，您将知道如何制作自己的。

您将首先了解 Dreambooth 是什么及其工作原理。但如果您只对训练感兴趣，则可以跳至分步指南。

软件

要遵循本教程并进行培训，您需要

成为该网站的会员，或者
购买 training notebook

任一选项都允许您访问training notebook 和示例图像。

注意：

此笔记本只能训练 Stable Diffusion v1.5 检查点模型。如果您对 SDXL 模型感兴趣，请训练 SDXL LoRA 模型。
该笔记本可以使用免费的 Colab 帐户运行。付费帐户允许您使用更快的 V100 GPU，从而加快训练速度。

什么是Dreambooth ？

Dreambooth 由 Google 研究团队于 2022 年发布，是一种通过将自定义主题注入模型来微调扩散模型（如稳定扩散）的技术。

为什么叫Dreambooth？据谷歌研究团队称，

它就像一个照相亭，但一旦拍摄到主题，它就可以合成到你的梦想带你去的任何地方。

听起来很棒！但它的效果如何？以下是研究文章中的一个示例。仅使用特定狗（我们称她为 Devora）的 3 张图像作为输入，dreamboothed 模型就可以在不同的环境中生成 Devora 的图像。

在这里插入图片描述
只需 3 张训练图像，Dreambooth 即可将自定义主题无缝注入扩散模型。

Dreambooth 如何运作？

您可能会问为什么不能使用这些图像通过额外的步骤来训练模型。问题是，众所周知，这样做会因过度拟合（因为数据集非常小）和语言漂移而导致灾难性失败。

Dreambooth 通过以下方式解决了这些问题

对新主题使用一个罕见的单词（请注意，我为狗使用了一个罕见的名字 Devora），这样它一开始在模型中就没有太多意义。
预先保留到类别：为了保留类别（上例中的狗）的含义，模型以注入主体（Devora）的方式进行微调，同时生成类别（狗）的图像。保存下来。

还有另一种类似的技术，称为文本倒转。不同之处在于，Dreambooth 对整个模型进行了微调，而文本反转则注入了一个新词，而不是重复使用生僻词，并且仅对模型的文本嵌入部分进行了微调。

训练 Dreambooth 需要什么

你需要三样东西

一些自定义图像
唯一标识符
一个类名

在上面的例子中。唯一标识符是 Devora。类名称是狗。

然后你需要构建你的实例提示词：

a photo of [unique identifier] [class name]

还有类提示词：

a photo of [class name]

在上面的例子中，实例提示词是：

a photo of Devora dog

由于 Devora 是一只狗，所以类别提示词是：

a photo of a dog

现在您了解了自己的需求，让我们深入训练吧！

分步指南

第 1 步：准备训练图像

与任何机器学习任务一样，高质量的训练数据是成功的最重要因素。

为您的自定义主题拍摄 3-10 张照片。照片应该从不同的角度拍摄。

拍摄对象还应该处于多种背景中，以便模型可以将拍摄对象与背景区分开来。

我将在教程中使用这个玩具。
在这里插入图片描述

步骤 2：将图像大小调整为 512×512

为了在训练中使用图像，您首先需要将它们的大小调整为 512×512 像素，以便使用 v1 模型进行训练。

BIRME 是一个调整图像大小的便捷网站。

将您的图像拖放到 BIRME 页面。
调整每张图像的画布，使其充分显示主题。
确保宽度和高度均为 512 像素。
按“保存文件”将调整大小的图像保存到您的计算机。

或者，如果您想完成本教程，您可以下载我调整大小的图像。

下载训练图像：

网站会员：访问会员资源页面。
如果您购买了笔记本，可以在产品页面下载培训镜像。

第三步：训练

我建议使用 Google Colab 进行训练，因为它可以省去您设置的麻烦。以下笔记本是从 Shivam Shrirao 的存储库修改而来的，但更加用户友好。如果您喜欢其他设置，请按照存储库的说明进行操作。

整个训练时间约为30分钟。如果您不经常使用 Google Colab，您可能可以在不断开连接的情况下完成训练。购买一些计算积分以避免断开连接的挫败感。

笔记本会将模型保存到您的 Google 云端硬盘。如果您选择 fp16（推荐），请确保您至少有 2GB；如果不选择，请确保您有 4GB。

打开 Colab 笔记本。
- 网站会员：访问会员资源页面。
- 如果您购买了笔记本，可以在产品页面下载培训镜像。
输入型号名称。您可以使用 Stable Diffusion v1.5 模型（HuggingFace 页面）。您可以在 HuggingFace 上找到更多模特。模型名称的格式应为用户/模型。