🌐 社群导航
🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群
数源AI 最新论文解读系列
论文名:Shining Yourself: High-Fidelity Ornaments Virtual Try-on with Diffusion Model
论文链接:https://arxiv.org/pdf/2503.16065
导读
随着扩散模型成为图像生成领域的事实上的标准,它也被广泛应用于虚拟试戴领域。给定一件物品的参考图像和一个模特的目标图像,任务是使用图像生成方法获得试穿效果的预览。由于不需要亲自试穿或使用物理试衣间,它在零售、电子商务和广告等各种应用中的大量广告材料生成方面具有巨大潜力。
简介
虽然基于扩散模型的服装和鞋子虚拟试戴已经受到关注,但手镯、戒指、耳环和项链等饰品的虚拟试戴在很大程度上仍未得到探索。由于大多数饰品中存在复杂的微小图案和重复的几何子结构,在饰品和模特之间存在较大的姿态和尺度变化时,更难保证身份和外观的一致性。本文提出了饰品虚拟试戴任务,并提出了一种改进饰品虚拟试戴的几何和外观保留的方法。具体来说,我们在去噪过程的迭代方案中估计一个准确的佩戴掩码,以改善饰品和模特之间的对齐。为了保留结构细节,我们进一步对注意力层进行正则化,以隐式方式将参考饰品掩码映射到佩戴掩码。实验结果表明,我们的方法成功地将参考图像中的饰品佩戴到目标模特身上,在处理尺度和姿态的显著差异的同时保留了身份,并实现了逼真的视觉效果。
方法与模型
我们提出了一种零样本方法,用于在给定参考饰品图像、目标模特图像和粗略边界框的情况下进行饰品虚拟试戴。由于饰品佩戴因人而异(例如,戒指有其手指象征意义),边界框粗略地指示佩戴位置。我们无需姿势和语义图等额外输入,就能生成逼真且高保真的贴合效果。该模型包含两个重要组件:1)一个从边界框进行迭代的姿势感知佩戴掩码预测和细化模块,用于改善饰品和模特之间的姿势对齐;2)一个掩码引导的注意力模块,用于提高身份和细节保留。我们方法的框架如图2a所示。
图 2. 我们方法的概述。a) 在训练过程中,给定参考饰品和模特图像以及掩码,我们的方法将饰品图像和带掩码的模特图像拼接作为参考网络分支的输入,该分支提取特征以迭代方式预测佩戴掩码。提取的特征还被注入去噪 U 型网络以改善细节生成。b) 我们通过设计注意力层以隐式方式将参考饰品掩码映射到真实佩戴掩码,而不是直接将掩码应用于注意力图,来强制注意力层保留结构细节。
1. 扩散模型和参考网络
扩散模型 我们的方法基于潜在扩散模型(LDM)和参考网络(ReferenceNet)模块,该模块已广泛应用于条件生成和虚拟试戴任务。典型的LDM实现 [22] 包括一个编码器 - 解码器模块和一个去噪网络。编码器将输入图像嵌入到低维潜在代码中以减少计算开销,该潜在代码经过扩散,然后由去噪网络去噪,从随机噪声中恢复。去噪后的潜在代码随后被解码以生成RGB图像。训练过程形式化如下:
其中 表示时间步 处的潜在特征,可通过 获得 是通过文本提示或参考图像与文本或图像编码器得到的条件嵌入,并注入到交叉注意力层以引导生成。我们的模型采用广泛使用的CLIP图像编码器来提取参考饰品图像的特征。
参考网络模块 该模块广泛应用于虚拟试戴中,以提高细节和结构保留。它的设计与去噪U - Net相似且并行。该模块提取参考图像的分层潜在特征,并将其注入去噪网络的相关层。具体来说,参考网络中的潜在特征与去噪网络中对应的特征进行拼接,用于注意力计算。
2. 姿势感知掩码细化
我们进行了几项实验,以探索姿势和尺度如何影响生成结果,从中我们有几个关键发现:1)基于扩散的模型即使在饰品试戴数据集上不进行微调,也有能力使饰品适应各种模特姿势,这归因于预训练扩散基础模型的图像先验。2)姿势和尺度对贴合效果有显著影响。一般来说,使用准确的佩戴掩码将显著改善饰品和模特之间的姿势对齐,即使存在较大的姿势和尺度差异。然而,佩戴掩码并不等同于语义掩码,语义掩码是从现有图像中预测得到的,而佩戴掩码是从两个不相关的饰品和模特图像中生成的。在推理过程中,很难甚至不可能获得准确的佩戴掩码。此外,饰品通常呈现特写视图,这比服装虚拟试穿中的粗略轮廓掩码需要更准确的佩戴掩码。
先前的研究表明,早期生成阶段的中间结果(例如,潜在特征和注意力图)包含生成图像的语义结构。有可能从这些中间图中提取佩戴掩码。然而,提取的掩码过于粗糙,无法使用。为了解决这个问题,我们提议估计一个更精确的佩戴掩码。我们添加一个额外的线性层,从中间图中预测佩戴掩码。预测的佩戴掩码进一步作为输入来引导生成过程。迭代细化最终收敛到一个与最终生成图像中的模特对齐的精确的姿态感知掩码。具体来说,将饰品、模特和粗略边界框的三元组图像输入到参考网络(ReferenceNet)中。与大多数服装虚拟试穿网络类似,饰品潜在特征和模特潜在特征被注入到去噪对应部分。潜在特征进一步拼接并进行线性投影,以预测佩戴掩码。预测的掩码和边界框混合作为新的佩戴掩码输入,更新方式如下:
其中是关于训练步骤的超参数。在训练早期,预测的佩戴掩码比较粗糙,设置得较小。随着后期掩码变得更加精确,趋近于1.0。
由于掩码预测和图像生成相互交织,我们使用一个带有佩戴掩码的饰品试穿数据集,通过损失来规范掩码预测:
其中是真实的佩戴掩码。这种正则化对于防止由于相互依赖导致的两种结果的双重退化非常重要。在推理过程中,只需要一个边界框来指示用户特定的佩戴位置。
3. 掩码引导的注意力机制
精确的佩戴掩码改善了饰品与不同姿态和尺度的模特之间的对齐。它对细节生成也有积极影响。然而,大多数饰品包含复杂的微小几何组件,如珍珠项链和珠串手链中的重复形状和/或环形结构。我们早期的尝试发现,模型难以保留组件的拓扑结构和/或数量,特别是在重复的几何图案中。举几个例子,它可能会忽略与其他大组件交错的小部分,或者填充环形结构的孔洞。我们怀疑现有的生成网络能够捕捉外观和空间细节,而不是几何结构,因为几何形状需要对边缘和轮廓的局部原始结构施加严格约束。
注意力图通过空间特征之间的亲和力保留形状细节[13]。一种可能的解决方案是在注意力图中施加几何结构约束。语义分割掩码包含丰富的几何结构信息,但由于饰品中存在大量微小复杂的子组件,该掩码难以提取。由于二值掩码也充满了边缘和轮廓的几何结构,并且易于获取(例如,使用SAM[19]),我们提议使用参考饰品掩码将几何结构注入到生成过程中。
然而,直接将注意力图与掩码融合可能会屏蔽过多信息,从而降低生成结果的质量。我们引入一种间接方法来限制参考图像和生成图像中装饰品的几何结构变化。具体来说,我们从去噪U-Net的各个层中获取潜在特征和装饰品嵌入的注意力图,其中是提取的注意力图的数量,是第个注意力图的维度。参考图像中的装饰品掩码被下采样并展平为一维掩码。然后,我们应用沿着一个维度屏蔽注意力图,并沿着另一个维度对其进行边缘化处理。接着将结果重塑并上采样到与相同的维度。所有结果掩码随后被平均为最终掩码,其公式可表示为:
其中是一个运算符,ops为操作类型,是从到的维度映射。顺序运算符定义为从右到左执行。掩码操作强制潜在特征关注参考图像中的装饰品区域,而边缘化操作则将装饰品特征扩散到生成图像中的佩戴区域。参考掩码通过注意力图映射到佩戴掩码。相反,为了使注意力图学习这种映射,我们要求变换后的佩戴掩码与真实的佩戴装饰品掩码保持一致,并使用如下的损失:
该过程如图2b所示。为简洁起见,未显示下采样和上采样操作。
4. 训练
数据集 受服装虚拟试穿常见做法的启发,我们收集了装饰品和佩戴这些装饰品的模特的图像对。我们将模特图像中的装饰品屏蔽掉,以获得目标图像和真实的佩戴掩码。参考装饰品图像、屏蔽掉装饰品的模特图像和原始模特图像组合成一个训练三元组图像。我们还将装饰品图像中的掩码标记为参考掩码。我们的数据集不需要装饰品和模特之间进行姿态对齐,这易于收集,并且还能防止模型学习简单的复制粘贴策略。总共,我们收集了约个图像三元组,大致均匀地分布在手镯、戒指、耳环和项链这四类装饰品中。每个图像三元组还包含一个参考掩码和一个装饰品的佩戴掩码。训练损失 我们的训练损失由上述三项组成:
其中和是损失权重。这两个权重随着训练步数的增加而衰减,这迫使模型在早期阶段学习佩戴掩码。随着掩码变得准确,模型将专注于外观细节的生成。该方案遵循常见的观察结果[28],即图像布局和结构在早期阶段勾勒,细节在后期阶段生成。
实验与结果
1. 实现细节
我们的模型采用Stable Diffusion V1.5作为网络主干。将装饰区域裁剪并调整大小为,选择Adam [18]优化器,初始学习率为。我们对采用简单的线性衰减,并从编码器和解码器中选择分辨率最高的自注意力图进行掩码引导注意力。我们发现这些简单的设置足以获得令人信服的结果。我们在处理输入和合成最终结果时遵循与AnyDoor [6]类似的方案。具体来说,将真实掩码调整为正方形,并将裁剪后的图像按1.5倍缩放。将生成的结果粘贴回原始掩码区域以合成最终结果。我们的模型在8块A100 GPU上训练10个轮次大约需要10个小时。
为了进行定量比较,我们采用FID [14]和LPIPS [41]来评估图像质量,同时使用CLIP图像相似度分数和基于DINO的特征相似度分数来衡量装饰品的身份一致性。所有结果均在从我们的数据集中划分出的测试图像集上进行计算和平均。
2. 比较
由于我们是首个专注于装饰品虚拟试戴的团队,因此我们在广泛的图像编辑领域中选择了几项与我们的工作最相关的研究。这些研究包括Paint-by-Example(CVPR'23)[34]、AnyDoor(CVPR'24)[6]和IDM-VTON(ECCV'24)[7]。前两项研究旨在将参考对象插入目标图像中,而后者则专注于服装虚拟试穿。与我们的方法类似,这些方法都需要物品的参考图像、目标图像以及用于定义局部编辑区域的掩码。所有方法均使用我们的数据集进行训练或微调。由于页面长度限制,我们以手镯类别为例展示所有视觉结果。更多其他装饰品类别的结果请参考附录。
定性结果 图3对各种结构和姿态的装饰品的拟合结果进行了定性比较。在大多数情况下,“按示例绘画(Paint-by-Example)”几乎无法保留几何结构和外观。“任意门(AnyDoor)”难以保留整个结构和/或主要部分的比例。“基于图像变形的虚拟试穿(IDM-VTON)”在一定程度上可以保留比例,但在保持结构布局方面存在问题,尤其是对于具有多个部分的复杂装饰品。之前的方法都无法保留装饰品中子部分的数量或恢复重复的几何图案。我们的方法在视觉外观和结构上与参考装饰品和真实图像最为相似,这表明它能够同时保留外观以及局部和全局结构,还有微小的表面几何图案(最后一行)。令人惊讶的是,我们的结果似乎更倾向于镜面反射比真实图像少的参考装饰品。部分原因是模特图像没有提供足够的环境光照线索,导致我们的模型难以学习到与真实图像完全相同的光照效果。
图3. 先前方法与我们方法的视觉比较。现有的方法都无法保持外观和结构的一致性,特别是饰品中的几何细节和组件数量。我们的方法既保留了细节又保留了特征,实现了高质量和高保真的拟合结果。
定量结果 表1展示了我们的方法与先前方法的定量比较。参考图像和真实图像中的两个饰品通常是在不同条件下拍摄的,如视角和光照。因此,我们将所有方法生成的结果与参考饰品和真实情况进行比较,并计算相应的一致性指标。我们的方法在所有指标上都取得了最佳结果,证明了其生成更逼真、高保真虚拟结果的能力。
3. 消融研究
我们进行了全面的消融研究,以评估我们提出的组件的有效性。实验是通过从基本模型中添加一个组件来设计的。基线模型改编自ReferenceNet和Stable Diffusion。从定性和定量两个方面对结果进行评估。图5展示了不同组件配置的视觉比较。基本模型在细节和几何结构上有明显缺陷。如果我们不集成掩码预测,结果会缺乏外观细节和镜面反射光。在某种程度上也可能会失去结构一致性(例如,第一个饰品中缺少流动结构)。没有掩码引导的注意力机制,局部和全局结构都会以添加或缺失组件以及改变比例的形式被破坏。另一方面,完整模型保留了外观和几何细节以及全局结构。表2中的定量结果也表明了所提出的两个模块对于改善最终虚拟试戴结果的重要性。更多结果见附录。
图5. 我们不同模块配置模型的视觉比较。完整模型在提出的两个模块的作用下取得了最佳结果。
4. 更多结果
我们使用我们的方法来试戴各种类型的饰品,包括手镯、项链、耳环和戒指。图4列出了结果。其他配置,包括一个模特佩戴不同饰品以及不同模特佩戴相同饰品的情况,也在图1(最后一行)中展示。所有结果表明,我们的方法可以处理局部和全局刚性及非刚性组件的各种饰品结构。更多结果见附录。
图4. 其他类别(包括手镯、戒指、项链和耳环)的虚拟试戴结果。
图6. 我们的模型在不同姿势和比例下能稳健地取得一致的结果。
为了评估我们的模型在不同姿势和比例条件下的鲁棒性。我们还通过随机旋转和缩放参考饰品进行了实验,然后将其用于同一模特的试戴。如图6所示,不同配置下的结果在细节和几何结构上是一致的。实验结果表明,我们的模型在饰品和模特之间存在较大姿势差异时具有鲁棒性。
结论
我们首次提出了虚拟饰品试戴任务。为了解决饰品中复杂几何结构这一更具挑战性的问题,我们设计了掩码预测和掩码引导的注意力两个模块,以获得准确的佩戴掩码并施加几何结构,从而保留外观细节和几何结构以实现身份一致性。目前,我们的方法更倾向于参考图像而非真实图像,在一定程度上缺乏镜面反射。受文献[38]的启发,我们希望在未来的工作中添加更细粒度的光照控制。此外,对佩戴方向的控制不准确(例如,沿手腕旋转)偶尔会导致特征组件隐藏在手腕后面。在扩散过程中使用二次掩码和局部特征注入可能会解决这个问题。