TexFit: Text-Driven Fashion Image Editing with Diffusion Models

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


`

TexFit: Text-Driven Fashion Image Editing with Diffusion Models

Author:Tongxin Wang, Mang Ye
From:AAAI 2024

Abstract:

时尚图像编辑是为了编辑输入图像,以获得更丰富或独特的视觉服装匹配效果。现有的全局时尚图片编辑方式难以实现丰富及独特的服装搭配效果,而局部时尚图片编辑更符合多样化、个性化的服装搭配需求。局部编辑技术通常依赖于文本和辅助方式(例如,人体姿势、人体关键点、服装草图等)进行图像处理,其中辅助方式有助于定位编辑区域。由于这些辅助方式在实际应用场景中通常涉及额外的工作,因此文本驱动的时尚图像编辑表现出高度的灵活性。在本文中,我们提出了TexFit,这是一种使用扩散模型的文本驱动的时尚图像编辑方法,该方法仅使用常见的文本描述便能进行局部图像编辑。我们的方法使用一个基于文本的编辑区域模块来预测时尚图像中的精确编辑区域。然后,我们将预测区域作为扩散模型的生成条件,结合文本提示,在保持其余部分不变的同时,实现对时尚图像的精确局部编辑。此外,以往的时尚数据集侧重于全局描述,缺乏能够指导精确局部编辑的局部描述性信息。因此,我们利用区域提取和属性组合策略来开发一种新的DFMM-Spotlight数据集,它局部地专注于服装和配饰,使文本输入进行本地编辑实现。在DFMM-Spotlight数据集上的实验结果验证了该模型的有效性。

Introduction:

时尚图片编辑的目的是编辑给定的时尚图片中的衣服和配饰,为用户展示他们想要的服装组合。时尚图像编辑算法的成功应用使用户和设计师能够以逼真和视觉上令人信服的方式可视化个性化服装(Jiang and Fu 2017; Pernuˇ s et al. 2023; Baldrati et al. 2023; Lin et al. 2023)。这个话题在不同领域具有启发性的潜力,例如在线服装销售和社交媒体。随着生成式模型的发展,工作者们已经在时尚图片编辑工作上投入了大量的努力(Jiang and Fu 2017; Patashnik et al. 2021; Xia et al. 2021; Huang et al. 2022; Pernuˇ s et al. 2023; Baldrati et al. 2023; Lin et al. 2023)。
现有的时尚图像编辑方法大多被设计为进行全局编辑,全局编辑是指对时尚图像进行全面的风格和语义操作。它们通常按照一个流程,通过操作隐式代码来与隐空间进行隐射对应,生成编辑过的图像。由于图像编辑的整体性,这些方法无法满足时尚图像对局部精确编辑的个性化需求。除了全局编辑之外,局部编辑方法还可以使用局部约束来限制时尚图像中编辑的执行区域,从而获取在指定区域内修改的时尚图像。相较于全局编辑方法,局部时尚图片编辑在获得多样化、个性化的服装搭配效果方面具有优势。因此,在本文中,我们重点关注时尚图像的局部编辑。
对于局部时尚图像编辑,现有方法通常基于 GAN 设计(Kim、Kim 和 Lee 2019;Dong et al. 2020),通常涉及多模态数据(例如,文本、人体姿势、布料分割、人体关键点、服装草图等)进行局部指导编辑(Kim, Kim, and Lee 2019;Dong et al. 2020;Baldrati et al,2023 年)。这些局部编辑方法有两个限制。首先,它们依赖于文本以外的辅助模式。与文本模态相比,其他模态(如人体姿势和服装草图)在实际应用场景中涉及额外的工作。其次,目前的方法大多是基于GAN设计的。基于 GAN 的方法不容易训练,并且难以生成具有丰富细节的高质量生成图像。最近,扩散模型(Ho,Jain和Abbeel2020;Song,Meng,AndErmon 2020;Dhariwal 和 Nichol 2021;Rombachetal,2022 )证明了他们在图像生成和编辑方面的主导地位。此外,扩散模型比基于 GAN 的方法更容易训练。因此,我们倾向于开发一种基于扩散模型的纯文本局部时尚图像编辑方法,如图1所示。


在这里插入图片描述


针对如何仅使用文本进行局部时尚图像编辑的问题,不难发现,现有的多模态服装设计师(Baldrati et al. 2023)方法由于使用了额外的数据(例如,服装草图和人类关键点模态关系),完成了编辑程序在时尚图像中的精确定位,如果仅使用文本模态数据,则无法完成。我们提出了一种使用扩散模型的局部时尚图像编辑方法TexFit,该方法采用基于文本的编辑区域位置模块(ERLM)获得要编辑的区域。位置模块的基本原理在于,提示文本已经隐含了区域信息。例如,对于像“牛仔短袖蓝色衬衫”这样的文本提示,编辑定义会直接关注身体上半部分的“衬衫”区域。因此,我们引入 ERLM 来探索隐藏区域掩膜模态信息,以辅助时尚图像的编辑。在ERRM的协助下,我们可以仅使用文本提示对时尚图像进行本地编辑,而无需考虑辅助模式,如人体姿势、人体关键点、服装草图等。图 2 展示了我们提出的 TexFit 和其他局部时尚图像编辑方法在输入方式上的差异,并且观察到 TexFit 更加简洁易用。我们采用扩散模型结构来与GAN进行局部时尚图像编辑比拼,为我们的图像编辑结果带来了质量保证。


在这里插入图片描述


此外,目前的数据集Fashion-Gen(Ros tamzadeh et al. 2018)和DeepFashion-MultiModal(jiang et al. 2022)缺乏能够指导时尚图像精确编辑的局部描述性句子。为了解决这一问题,同时也满足了我们提出的测试需求,我们在DeepFashion多模态数据集的基础上,采用区域提取和属性组合方法,创建了一种新的时尚图像-区域文本对数据集,称为DFMM-Spotlight数据集。有望促进文字驱动时尚图像编辑任务的发展。我们的贡献如下:

  • 本文提出了一种利用扩散模型的文本驱动的时尚图像编辑方法,该方法仅以文本作为初始生成条件,可以达到接近时尚图像生成的真实效果。
  • 我们提出了一种基于文本提示的编辑区域位置模型,以明确定位编辑区域。
  • 我们还创建了一个新的 DFMM-Spotlight 数据集,这是一个图像-区域-文本对数据集,可实现细粒度的文本引导本地图像编辑。
  • 在DFMM-Spotlight数据集上的实验结果表明,TexFit在图像保真度以及编辑区域和文本提示之间的一致性方面优于其他比较方法。

Related Works:

文本到图像的生成是一项重要且具有挑战性的任务,其目的是从自然语言描述中生成逼真的图像。大多数早期工作都基于 GAN(Reed et al. 2016; Zhang et al. 2017, 2018a; Xu et al. 2018). (Reed et al. 2016)首次提出了基于GAN的方法,通过将文本嵌入向量与生成器相结合,可以有效地捕获描述中的语义信息并生成逼真的图像。StackGAN (Zhang et al. 2017) 和 Stack gan++ (Zhang et al. 2018a) 在生成过程中使用多级渐进生成网络结构逐渐提高图像分辨率。AttnGAN (Xu et al. 2018) 将注意力机制应用于文本到图像的生成过程,以便更准确地对齐文本描述和图像内容。最近,扩散模型(Ho,Jain和Abbeel2020;Song,Meng,AndErmon 2020;Dhariwal 和 Nichol 2021; Rombach.2022)作为一种有效的生成方法受到广泛关注,并在文本到图像生成方面取得了最先进的结果。扩散模型使用逐步扩散过程,通过多次更新噪声信号来逐渐生成高质量的图像。
文本驱动的图像编辑旨在实现对给定文本描述中的图像进行精确编辑。使用 GAN 进行文本驱动的图像编辑已被广泛研究(Dong et al. 2017; Nam, Kim, and Kim2018;Lietal.2020;Patashnik et al. 2021; Xia et al. 2021))。作为GANs最近最强大的竞争对手,扩散模型在图像编辑中展现了其非凡的表现。SDG(Liu et al. 2023)、Blended Diffusion(Avra hami, Lischinski, and Fried 2022)和 DiffusionCLIP(Kim, Kwon, and Ye 2022)利用 CLIP (Radford et al. 2021) 的图像-文本特征对齐功能对图像进行文本驱动的编辑。许多作品(Avrahami, Lischinski, and Fried 2022; Avrahami, Fried, and Lischin ski 2023; Nichol et al. 2022)探索了使用手动蒙版来编辑图像的指定区域而其余部分不变的可能性。然而,提供手动蒙版仍然是一项艰巨的工作。DiffEdit(Couairon et al. 2022)和 Prompt-to-Prompt(Hertz et al. 2022)通过在图像编辑前自动预先指定蒙版,实现了纯文本编辑的目标。在时尚领域,FICE (Pernuˇ s et al. 2023) 利用隐式代码正则化技术来增强 GAN 反演过程,利用 CLIP 文本嵌入来指导时尚图像编辑过程。多模态服装设计师(Baldrati et al. 2023)提出了一种基于隐式扩散模型的多模态条件时尚图像编辑解决方案。

Method

在本节中,我们提出了一种仅使用文本的时尚图像编辑方法。具体来说,给定一张时尚图片x0,以及编辑文本提示P。我们期望在原始时尚图像的基础上,根据文本提示P编辑新的时尚图像x。新的时尚图像的特征,如人体姿势和身份,必须与原始图像保持一致,并且图像中的操作应符合文本提示P。由于我们在编辑时仅将文本提示 P 和原始时尚图像 x0 作为初始输入,与(Baldrati et al. 2023)不同,我们不使用可以提供编辑区域位置信息的人体姿势、人体关键点和服装草图等辅助数据。为了解决这个问题,我们提出了一种基于文本的编辑区域位置模块,用于明确定位时尚图像的编辑区域。然后,利用位置模块提取的编辑区域作为扩散模型的蒙版条件输入,完成时尚图像的编辑;我们的方法概述如图 3 所示。


在这里插入图片描述


Preliminaries

Diffusion Models

简单来说,扩散模型是一类概率生成模型,它将噪声转换为具有代表性的数据样本。扩散模型由两个过程组成:前向扩散和反向去噪过程。给定数据 x0 ~ q(x),前向扩散过程在 T 步长上向其添加高斯噪声:
在这里插入图片描述
式中,βt 表示噪声方差时间表,即{βt ∈ (0, 1)}t=1。随着 t 的增加,这个 forword 过程使 xt 逐渐接近标准高斯噪声。通过对前向扩散过程进行反转,我们可以得到对前向去噪过程的反转。
在这里插入图片描述
其中 μθ(xt,t) 是可学习的,而 Σθ(xt,t) 是固定的 con-tants (Ho、Jain 和 Abbeel 2020)。在实践中,为了训练扩散模型,我们有目标函数:
在这里插入图片描述
其中 x0 表示输入数据,ε ∼ N(0,I) 表示添加到输入数据的高斯噪声,而 t 是去噪时间步长。εθ 是用于估计增加噪声的噪声预测器,通常使用 U-Net 实现 (Ronneberger, Fischer, and Brox 2015)。一旦 εθ 被训练,它就可以用于在去噪 T 步后从完全随机的噪声图像生成图像。

Latent Diffusion Models

与在图像像素级别操作的早期差异模型不同(Dhari wal 和 Nichol 2021;Nichol et al. 2022)、隐式扩散模型 (LDM) (Rombach et al. 2022) 采用预训练的自动编码器将图像压缩到低维潜在空间进行扩散。预训练的自动编码器由编码器 E 和解码器 D 组成。具体来说,给定一个图像x∈RH×W×3,编码器E将x映射为潜在表示z = E(x),并采用解码器D从潜在图像中重建图像,即:x = D(z) = D(E(x)),其中 z ∈ Rh×w×4, h,w 是从 H,W 下采样的。通过将方程(3)中的数据点x代入编码的潜在z,LDM的训练目标函数可以导出为:
在这里插入图片描述
当涉及到条件生成时,这可以通过扩展的条件去噪自动编码器 εθ(zt, t, c) 来实现,其中 c 表示条件嵌入。对于文本引导的扩散模型,c 可以是文本提示的条件嵌入向量。
考虑到隐式扩散模型在低维隐式表示空间中迭代去噪数据以生成图像的优点,这种方式大大减少了图像生成所需的计算资源。因此,我们在稳定扩散模型的基础上开发了 TexFit。

文本驱动的时尚图像编辑:

文本驱动的时尚图像编辑包括两个阶段。由于文本提示隐含了图像编辑所需的区域信息,因此我们在第一阶段使用编辑区域位置模块(ERLM)来定位和发现隐藏的编辑区域信息。在得到预测的编辑区域后,将其与文本提示一起作为隐式扩散模型进行第二阶段时尚图像编辑的生成条件。

  • 阶段一:基于文本的局部区域编辑
    受 (jiang et al. 2022) 中的姿势到解析模块的启发,我们对 ERLM 进行了设计。给定一个描述时尚图像x0中局部服装的文本提示P,我们期望得到一个区域掩码M ∈ {0,1}H×W×1 对应于这个描述。首先将文本提示 P 输入到预训练的 CLIP 模型中以获得文本嵌入 fp。然后,由编码器E和解码器D组成的ERLM将时尚图像x0和fp作为输入。编码器 E 的第 i 层的功能可以描述如下:
    在这里插入图片描述
    其中,通过空间广播运算 B() 广播 fp 与 fxi−1 具有相同的空间大小,并将 fx0 设置为 x0。解码器D的第一层功能为:
    在这里插入图片描述
    我们将解码器 D 的最后一层的输出 ̃ fx 输入到全卷积层中,以预测编辑区域掩码 M。通过在DFMM-Spot数据集上使用交叉熵损失来训练ERLM模型。
  • 阶段二:使用隐式扩散模型进行时尚图像编辑
    给定在第一阶段获得的预测编辑区域 M,蒙版图像可以用 xm = (1 − M) ⊙ x0 表示,其中 ⊙ 表示元素乘法算子。为了在掩蔽条件下生成,我们用 zt ‘= [zt,m,zm] 扩展了 εθ(zt,t,c) 中定义的 zt,其中 zt ’ 沿通道维度由 m 和 zm 连接,m ∈ {0,1} ^h× w×1^ 是从 M 下采样,zm =E(xm) 是掩蔽图像 xm 的隐式嵌入。结果可以看到,我们得出最终的训练对象函数:
    在这里插入图片描述
    其中 c = τθ(P),τθ 表示预训练的 CLIP 文本编码器将文本提示 P 作为输入。
    在推理过程中,我们采用了(Hoand Salmans 2021)中引入的无分类器指导技术,其中每个步骤的噪声预测由无条件和有条件预测的组合加权。将c0=Tθ(“”)作为无条件嵌入,每个推理步骤的噪声预测可以通过以下公式计算:
    在这里插入图片描述
    其中 w 代表引导刻度,较高的引导刻度鼓励生成与文本提示 P 紧密关联的图像。
    为了保持时尚图像中人物的身份与图像除编辑区域外的其余部分不变,我们将解码器D在推理过程后生成的编辑后的时尚图像xe与原始的时尚图像x0相结合。最终图像 ̃xe 可以通过以下方式获得:(其中 M 表示第一阶段预测的编辑区域)
    在这里插入图片描述
    其中M表示第一阶段预测的编辑区域。

The DFMM-Spotlight Dataset

当前时尚图文对数据集中的文本多是对整个时尚图像的描述,缺乏能够指导时尚图像精确编辑的局部描述信息。为了解决这个问题,我们收集了一个新的时尚图像-区域-文本对数据集,称为DFMM-Spotlight,突出了局部的衣服。

Data Collection

  • Data Source
    我们使用 DeepFashion-MultiModal 数据集(江等人,2022 年)作为我们的数据源。它包含 11,484 张全身图像,带有 24 类的人体解析标签。对于每张图像,该数据集都提供人工解析注释,包括衣服(上衣、外衣、裙子、连衣裙、裤子、连体裤)、身体成分(头发、脸部、皮肤)和配饰(眼镜、腰带、包等)的 24 个语义标签。同时,每张图片还标注了衣服形状、质地属性和文字描述。

  • Region Prompt Extraction:
    DeepFashion-MultiModal 数据集提供的人工解析标签可用于提取 Region Prompt。我们从中选择了五种语义标签,分别是上衣(上衣)、下衣(裤子)、外衣(外衣)、连衣裙(连衣裙、连体裤)和配饰(眼镜、腰带、包)。图像中与所选语义标签匹配的部分像素将设置为一,其余像素将设置为零,从而产生区域提示图像。

  • Attributes Combination for Text Prompt
    DeepFashion-MultiModal 数据集中的衣服形状属性包括上衣和下衣物的长度。上衣的长度描述如下:无袖、短袖、中袖、长袖、不长袖;下层衣服的长度类别有三分、中短、四分之三和长。它们可以称为长度属性。质地属性主要包括衣服的颜色和衣服的面料。衣服的颜色分为(花卉、图案、条纹、纯色、格子和色块)。至于纯色,我们通过识别相应区域的HSV颜色空间,将它们分为特定的颜色(黑色、灰色、红色、蓝色等)。衣服面料由牛仔布、棉、皮革、毛茸茸、针织和雪纺组成。同样,它们被指定为颜色属性和织物属性。对于上一步提取的每个区域提示,我们在文本描述注释中查找布料文本(例如,背心、T 恤、短裤、裤子)。最后,我们将长度、颜色、材质和衣服文本作为文本提示词。

  • Comparison with Other Datasets
    我们将 DFMM-Spotlight 数据集拆分为一个包含 21377 个图像-区域-文本对的训练集和一个包含 2379 对的测试集,遵循 DeepFashion MultiModal 数据集中的原始拆分设置。我们将公开这个数据集,并希望它可以帮助调查本地时尚图像编辑任务的技术问题。
    我们将 DFMM-Spotlight 数据集中的样本与当前时尚数据集 Fashion-Gen 和 DeepFashion-MultiModal 中的样本进行比较,如图 4 所示。Fashion-Gen中的文字描述了时尚图像中的单一服装,尽管时尚图像还包含其他服装,容易产生歧义。DeepFashion-MultiModal数据集中的文本描述是时尚图像中所有服装的概述。因此,现有的数据集Fashion-Gen和DeepFashion MultiModal都描述了文本和服装区域之间的细粒度对应关系,因此无法适应本地时尚图像编辑任务。与上述数据集相比,我们新收集的DFMM-Spotlight数据集具有聚光灯的作用,可以照亮局部布料区域,并将其与简短的文本提示相关联,以方便本地时尚图像的编辑。
    在这里插入图片描述

Experiments

Experimental Settings

  • 数据集:实验是在DFMM Spotlight数据集上进行的。由于DFMM-Spotlight的测试集对数只有2379对,因此我们扩展了测试集,以评估在第二阶段引入的时尚图像编辑模型。具体来说,我们为数据集中的每个文本提示搜索描述同一布料类别(例如,背心、T 恤、短裤、裤子)的几个文本描述。扩展后得到了具有 10845 个图像-区域-文本对的扩展测试集。
  • 对照组:我们选择三种基于稳定扩散的图像编辑方法 SDEdit (Meng et al. 2021)、SD-Inpaint1 和 DiffEdit (Couairon et al. 2022) 作为我们的可比基线。SDEdit 将对输入图像进行部分噪声添加,然后对其进行去噪以进行编辑。我们在Stable Diffusion的Img2Img函数中采用了SDEdit编辑技术。我们将强度参数设置为 0.8,与原始 pa 一致。 SD-Inpaint 是在 Stable Diffusion 的基础上开发的,具有使用蒙版对图片进行涂色的额外功能。DiffEdit 是一种不需要手动蒙版的编辑方法,与我们提出的 TexFit 方法相同。DiffEdit 可以通过比较源文本提示和编辑文本提示引导的预测噪声生成自动计算的掩码。
  • 实现细节:所有的实验都是在单个NVIDIA RTX3090进行。在实验中我们下采样所有的图片到512 x 256分辨率。ERLM是通过DFMM-Spotlight数据集采取100个epoch训练的,其中每次的batch为8,使用Adam优化器以及设置学习率为1×10−4。我们使用Stable Diffusion V1.4 作为我们的第二阶段的时尚图片编辑模块的训练模型以及初始化检查及其他通道权重。我们使用使用AdamW优化器以及设置学习率为1×10−5的方式将DFMM-Spotlight数据集为调成140k步。为了节约内存,我们采用混合精度以及梯度累计,其中,梯度累积的步长设置为 4,批量大小设置为 1。我们采用PNDM调度器(Liuetal.2021),迭代步骤为50步,并将无分类器指导尺度w设置为7.5。为了进行公平的比较,我们采用了在 DeepFashion-MultiModal 上对 SDEdit 和 DiffEdit 进行微调的 Stable Diffusion v1.4 主干网,主干网的微调超参数与我们的第二阶段模型一致。
  • 评估指标:我们采用Fréchet初始距离(DID)(Heuse等人,2017)和习得的感知图像补丁相似性E(LPIPS(张等人,2018年b)定量评估所生成的时装帧的样品保真度。此外,为了估计编辑后的时尚图像是否与输入的文本提示匹配,我们使用CLIP分数(CLIP-S(Hesseletal.2021)。CLIP Score可用于评估生成的图像与图像中真实内容之间的相关性。我们通过将时尚图像的其余部分填充为白色像素(除了真实编辑区域)来计算CLIP-S。

ComparisonwithBaselines

我们在表 1中报告了我们的 TexFit 和竞争对手方法在 DFMM-Spotlight 测试数据集上的定量结果。在 FID 和 LPIPS 指标的结果方面,我们提出的 TexFit 方法在编辑后的时尚图像逼真度方面表现出色。通过观察 CLIP-S 的结果,我们发现与其他方法相比,TexFit 在编辑后的时尚图像的相关区域和文本提示之间具有竞争性的对齐结果。
在这里插入图片描述
我们在图5中展示了竞争方法和我们的方法之间的定性比较。可以看出,TexFit可以根据文本提示精确地定位要编辑的时尚图像的区域,并按照文本提示呈现语义修改。相比之下,DiffEdit,另一种可以自动生成图像编辑区域掩模的方法,显示出较少的精确度,这体现在一些偏离所定位的编辑图像区域。我们通过图6显示了区域生成的可视化结果,通过该图可以看出,与DiffEdit 相比,我们提出的 ERLM 可以专注于关键编辑区域,从而获得更精确的编辑时尚图像。
在这里插入图片描述
为了评估我们的方法,我们进行了一项基于人类判断的受试者研究。我们组织了 36名用户对 1000个研究案例组进行了评估。我们邀请用户挑选出在图像逼真度、文本匹配和身份保留方面表现最佳的由不同方法生成的图像。我们在表3中报告了详细的图像选择结果。我们的 TexFit 在每个评估指标上都优于其他方法。
在这里插入图片描述

AblationStudy

我们对编辑区域位置(第一阶段)和时尚图片编辑第二阶段)部分进行了消融实验,结果如表2所示。ERLM 指的是我们在第一阶段提出的编辑区域位置块。GT Mask 指的是 DFMM-Spotlight 数据集中真实的区域掩模。根据表2,当编辑区域位置和时尚图片编辑模块技术分别固定时,我们的时尚图片编辑模块和 ERLM 均表现出最佳性能,这证明了这两个模块的有效性。值得注意的是,当我们结合由 DiffEdit 生成的编辑区域掩模与我们的第二阶段时尚图像编辑模型时,图像的保真度大大降低,这表明由 DiffEdit定位的编辑区域缺乏准确性,并对我们的编辑过程造成了相当大的干扰。这进一步证实了我们提出的 ERLM 的有效性。
在这里插入图片描述

Conclusion

在本文中,我们提出了一种基于扩散模型的文本驱动的时尚图像编辑方法,该方法允许在实际应用场景中使用易于获得的文本对时尚图像进行局部编辑。我们的模型的关键设计在于应用ERLM,该模型明确地挖掘出文本提示中的隐藏编辑区域信息。此外,我们基于现有的时尚DeepFashion-MultiModal数据集收集了一个DFMM-Spotlight数据集,该数据集可以在文本提示和编辑区域之间提供精细的对应关系,用于局部时尚图像编辑。我们对新收集的 DFMM-Spotlight数据集进行实验,以证明我们提出的方法的有效性。


个人理解

Stable Diffusion几乎都是直接生成一整张的图片,这在文章中的说法就是全局生成,这样的方式难以实现对细节生成的控制,于是对这种方式进行弃用。目前也有许多的局部生成的方法,但是这样的方式通常都依赖于其他的辅助方式(例如,人体姿势、人体关键点、服装草图等)。于是提出了一种新型的局部生成控制方法,即通过文本提示词来控制确定局部编辑区域,在确定好该编辑区域后再进行该区域的生成。为了实现整一个过程,文章作者以两步实现:

一、基于文本确定编辑区域:

先利用一段文本提示词,下图所示就是denim long trousers(长牛仔裤),将文本输入到预训练好的CLIP模型,经过CLIP模型的处理会得到一段文本与图像对应的向量序列,将该序列以及图像输入到U-net网络,(其中图像数据与文本数据会进行合并一起输入)。最后U-net处理后会得到一张指定区域被分割开来的掩码信息图片。这就是整个使用文本来确定编辑区域的过程。
在这里插入图片描述

公式理解:

在这里插入图片描述
对于编码器来说,每一层X i 均由上一层的输出X i - 1以及文本提示的词嵌入进行编码
在这里插入图片描述
对于解码器来说,每一层X i 均由上一层的输出X i - 1以及编码器的对应层次输出进行解码,以上均可以通过U-net的数据流动顺序可以知道。

二、使用隐式扩散模型对时尚图片编辑:

该阶段一共有两种控制条件,第一个控制条件的产生过程为:输入的图像数据以及第一阶段的编辑区域掩码图像都会有两个流向,其中一个是通过编码器得到对应的编码结果Z0,另外一个是是与编辑区域掩码图像进行合并操作(结果是将原图中的编辑区域“涂黑”),合并后得到Xm,之后再经过编码器处理得到Zm,最后将编辑区域掩码图像、Z0及Zm进行合并处理得到控制条件Zt’。第二个控制条件的产生则为文本控制条件,其产生过程与第一阶段的文本向量产生过程一样。
获得两个控制条件之后,扩散模型则根据这两个条件对ZT的噪声图片进行去噪处理,最后经过解码器解码,实体恢复,则得到了最终的图像。
在这里插入图片描述

公式理解:

在这里插入图片描述

该公式为噪声预测的损失函数,通过降低原噪声与经过神经网络学习的条件控制噪声的差值来进行学习优化。
在这里插入图片描述

该公式为无分类指导公式,式子的含义是,通过将预测出的无条件噪声与W倍的有条件与无条件噪声的差进行相加获得最终的学习预测噪声,。这个式子为什么是这样的,可以这样理解:有条件与无条件的差可以理解是真正意义上的“条件”控制因素,通过放大该因素,可以让产生的结果与所需条件更加地接近。
在这里插入图片描述

该公式可以这样理解,M是阶段一产生的掩码图像,通过与编码器产生的图像进行乘积运算,条件生成的区域位置,再与缺少该区域位置的原图像进行相加则是最后的结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值