TryOnDiffusion : A Table of Two UNets详解_tryondiffusion: a tale of two unet-CSDN博客

本文链接：https://blog.csdn.net/studentyingjie/article/details/134614584

本文介绍了TryOnDiffusion，这是一种基于扩散模型的虚拟试衣技术，能处理复杂的姿势变化和身体形状差异，同时保留服装的细节。该技术采用名为Parallel-UNet的架构，通过交叉注意力机制实现隐性服装扭曲，将扭曲和融合过程结合在一起。在1024×1024的高分辨率下，TryOnDiffusion展现了优于现有方法的性能。文章还探讨了相关工作、方法的详细设计以及实验结果，显示在用户研究中，TryOnDiffusion有92.72%的时间被评为最佳结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

——试穿扩散:两个UNets的故事

Abstract

给定两张描绘一个人和另一个人穿的衣服的图像，我们的目标是生成一个可视化的图像，显示衣服在输入人身上的样子。一个关键的挑战是合成一个逼真的，服装细节保留的可视化结果，同时扭曲服装，以适应重要的身体姿势和形状的变化。以前的方法要么注重服装细节的保存，而没有有效的姿势和形状的变化，要么允许以所需的形状和姿势试穿，但缺乏服装细节。在本文中，我们提出了一种基于扩散的架构，该架构统一了两个unet(称为Parallel-UNet)，这使我们能够在单个网络中保留服装细节并对服装进行扭曲，以实现重要的姿势和身体变化。Parallel-UNet背后的关键思想包括:1)服装是通过交叉注意机制进行隐性的扭曲;2)服装扭曲和人的融合是一个统一过程的一部分，而不是两个独立任务的序列。实验结果表明，TryOnDiffusion在定性和定量上都达到了最先进的性能。

1. Introduction

虚拟服装试穿（Virtual apparel try-on）的目的是根据人的照片和衣服的照片来想象一件衣服穿在人身上的样子。虚拟试穿有可能增强在线购物体验，但大多数试穿方法只有在身体姿势和形状变化很小的情况下才能发挥作用。一个关键的开放问题是服装的非刚性扭曲，以适应目标体型，但同时不能引入扭曲的服装图案和质地。

当姿势或身体形状发生明显变化时，服装需要根据新的形状或遮挡形成褶皱或变平。相关工作已经通过估计像素位移来解决翘曲问题，例如光流，然后进行像素翘曲，并在与目标人混合时进行带有感知损失的后处理。然而，从根本上说，寻找位移、翘曲和混合的顺序通常会产生伪影，因为遮挡的部分和形状变形很难用像素位移精确地建模。即使使用强大的生成模型，在稍后的混合阶段删除这些工件也是具有挑战性的。作为替代方案，TryOnGAN展示了如何在不估计位移的情况下扭曲，通过条件StyleGAN2网络并优化生成的潜在空间。虽然生成的结果具有令人印象深刻的质量，但由于潜在空间的表示能力较低，输出通常会丢失细节，特别是对于高度图案化的服装。

在本文中，我们提出了可以处理大遮挡、姿势变化和身体形状变化的TryOnDiffusion，同时以1024×1024分辨率保留服装细节。TryOnDiffusion将两幅图像作为输入:目标人物图像和另一个人穿的衣服图像。它将穿着该服装的目标人合成为输出。衣服可能部分被身体部位或其他衣服遮挡，需要明显变形。我们的方法是在400万对图像上进行训练的。每一对都是同一个人穿着同一件衣服，但姿势不同。

TryOndiffusion基于我们的新架构Parallel-UNet，该架构是由两个通过交叉注意力机制[42]进行通信的子unet组成。我们的两个关键设计元素是隐性扭曲，以及扭曲和融合(目标人物和服装)的一次性的结合，而不是连续或者级联的方式。目标人物和源服装之间的隐性扭曲是通过在多个金字塔水平上交叉关注他们的特征来实现的，这允许建立远距离的对应关系。长距离通信性能良好，特别是在严重遮挡和极端姿势差异的情况下。此外，使用相同的网络执行扭曲和混合允许两个过程在特征级别交换信息，而不是在颜色像素级别交换信息，这在感知损失和风格损失中是必不可少的。

为了在1024×1024分辨率下生成高质量的结果，我们遵循Imagen[37- Photorealistic text-to-image diffusion models with deep language understanding. NIPS 2022.]并创建级联扩散模型。具体来说，基于