Transparent Image Layer Diffusion using Latent Transparency

本文介绍了LayerDiffuse技术,一种利用预训练潜在扩散模型生成透明图像的方法。通过学习潜在透明度,模型能生成单层或多层透明图像,并展示了其在多层图像生成、细致细节捕捉和用户偏好方面的优势。文章详细讨论了基础模型和多层模型的训练策略以及数据集的准备过程,尽管存在局限性,但这项技术为图像生成、图形设计等领域带来了显著的进步。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Transparent Image Layer Diffusion using Latent Transparency

LayerDiffuse是一种新颖的方法,它允许大型预训练的潜在扩散模型生成透明图像。这种方法可以用于生成单个透明图像或多个透明层。LayerDiffuse通过学习一种“潜在透明度”,将alpha通道的透明度编码进预训练潜在扩散模型的潜在流形中。这种方法通过将添加的透明度作为潜在偏移来调节,以最小的变化保持预训练模型原有的潜在分布的生产就绪质量。通过这种方式,任何潜在扩散模型都可以通过微调其调整后的潜在空间,转换为透明图像生成器。

LayerDiffuse的训练利用了1M个透明图像层对,这些层对通过人工参与的收集方案收集而来。研究表明,潜在透明度可以应用于不同的开源图像生成器,或者适应于各种条件控制系统,以实现应用,如前景/背景条件下的层生成、联合层生成、层内容的结构控制等。

用户研究发现,在大多数情况下(97%),用户更喜欢我们原生生成的透明内容,而不是之前的临时解决方案,比如生成然后抠图。用户还报告说,我们生成的透明图像的质量与真实的商业透明资产(如Adobe Stock)相媲美。

简而言之,LayerDiffuse通过在潜在空间中引入透明度概念,扩展了现有潜在扩散模型的能力,使其能够生成具有高质量透明度的图像,这对于图像生成、图形设计和许多其他应用领域都是一项重要的进步。

1. image layer

分层可以get 到很细节的信息

这段描述阐述了一个框架,它能够根据给定的文本提示(提示位于顶部)生成带有透明度的多层图像。这些图层可以被混合起来,生成与文本提示相对应的图像。该框架的能力特别体现在对细节的捕捉上,比如可以生成表现细腻的乱发和半透明的火焰等细节。

具体来说,这意味着该框架不仅仅是生成一个静态的透明图像,而是能够根据文本指令创建多个独立的图层,每个图层都有自己的透明度属性。这样的设计允许用户对生成的图层进行灵活的编辑和组合,进而创造出复杂的视觉效果。比如,用户可以独立调整每个图层的透明度,或者将几个图层组合起来形成一个完整的场景,这个场景能够根据文本提示精确地展现出细节丰富的图像,如乱发的细节和火焰的半透明效果。
在这里插入图片描述

2. Latent Transparency

在这里插入图片描述
"潜在透明度"是一种技术,它允许一个框架处理并调整透明图像的信息,具体地说,是通过调整Stable Diffusion模型的潜在空间来实现的。当给定一个输入的透明图像时,这种方法能够编码一个“潜在透明度”,从而调整Stable Diffusion模型的潜在空间。这个调整后的潜在空间能够被解码回来,以重构图像的颜色和alpha(透明度)通道。

简单来说,这个过程允许框架不仅仅重建图像的可见部分,也能准确地处理和重建图像的透明部分。这对于透明图像的生成和处理非常重要,因为它涉及到不仅仅是图像的颜色,还有其透明度或不透明度,这对于创建复杂的图像效果如阴影、光晕或是与其他图像层的混合效果至关重要。

将这种"潜在透明度"技术应用于Stable Diffusion模型的潜在空间,意味着现有的预训练图像扩散模型可以被进一步训练或微调,以包含透明度信息。这种能力扩展了图像生成模型的应用范围,使其能够在创建图像时自然地处理透明度,从而生成更为复杂和逼真的视觉效果。这在许多领域都是非常有用的,比如在视觉艺术、游戏设计、图像编辑和虚拟现实等领域中创建透明层或效果。

3. Model Training

在这里插入图片描述
这段描述提到了两种训练模型的过程:基础模型的训练用于生成透明图像;多层模型的训练用于同时生成多个图层。

3.1 基础扩散模型的训练(a)

在训练基础扩散模型(a)的过程中,模型的所有权重都是可以训练的。这意味着模型在学习生成透明图像的过程中,会调整其所有的参数来最优化生成的结果。这种训练方法允许模型从头到尾全面学习如何根据输入数据生成带有透明度的图像,从而实现高质量的透明图像生成。

3.2 多层模型的训练(b)

对于多层模型的训练(b),情况则有所不同。在这种训练配置中,只有两个LoRAs(局部重新参数化的区域)是可训练的:前景LoRA和背景LoRA。LoRA(局部重新参数化)是一种机制,它允许模型在不改变主要网络架构的情况下,通过调整一小部分参数来学习特定的特征。在这种情况下,通过专注于前景和背景的LoRAs,模型被训练来区分和生成多层次的图像,其中每一层都可以独立地表示图像的不同部分(如前景和背景),并可能包含自己的透明度。

这种方法的优势在于,它允许模型在保持大部分预训练参数不变的同时,专注于学习如何有效地分离和生成具有不同透明度的多个图像层。这种训练策略对于生成复杂场景,其中包括多个透明或半透明层的图像,尤其有效。

总的来说,这两种训练方法各有其应用场景和优势,基础模型的全面训练适用于生成单一透明图像,而多层模型的专注训练则适用于生成需要精细层次控制的复杂图像

4. data preparation

在这段描述中,提及了两种数据集的准备过程:透明图像数据集(基础数据集)和多层数据集。每个数据集的最终规模都达到了大约100万张图像。

在这里插入图片描述

4.1 透明图像数据集(基础数据集)

基础数据集是通过下载在线透明图像来收集的,收集过程中采用了人工参与的训练方法(human-in-the-loop)。这种方法允许人类评审员在数据收集和处理过程中起到辅助决策的作用,确保数据的质量和相关性。透明图像数据集专注于包含alpha通道的图像,alpha通道负责记录图像中每个像素的透明度信息。通过这种方式收集的数据集为透明度模型的训练提供了基础,使其能够学习和理解如何生成和处理带有透明度的图像。

4.2 多层数据集

多层数据集的制备过程更加复杂,它是通过使用透明扩散模型和几个最先进的模型合成而成的,这些模型包括ChatGPT、SDXL inpaint模型等。这个过程涉及到生成具有多个层次和透明度的复杂图像,每层可以独立表示不同的图像元素(如前景、背景等)。通过结合使用多种模型,这个数据集不仅包含了单一的透明元素,还能够表现多层次、多维度的图像结构,为训练多层生成模型提供了丰富的训练材料。

这两种数据集的准备工作是为了支持和训练复杂的图像生成模型,使其能够处理和生成高质量的透明和多层次图像。通过精心准备和使用这些数据集,研究人员和开发者能够训练出能够理解和操作图像透明度和层次结构的先进模型,从而在图像生成、编辑和合成等多个领域推动技术进步。

5. 生成 foreground

我们可以看出,生成的foreground是没有物理信息的。

在这里插入图片描述

6. generating layer

文本可控生成

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

7. 局限性

对于任意的 input foreground ,是无法进行带有 物理信息 的 blending。

但是可以从图像中得到 foreground(带有物理信息的)。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

莫余

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值