Taming the Power of Diffusion Models for High-Quality Virtual Try-On with Appearance Flow

JennnyZhang

已于 2023-08-07 22:04:13 修改

阅读量605

点赞数 1

文章标签：人工智能

于 2023-08-06 17:18:19 首次发布

本文链接：https://blog.csdn.net/qq_53826699/article/details/132129334

版权

本文提出一种结合扭曲网络与扩散模型的方法，应用于高保真虚拟试衣技术。通过扭曲网络处理衣服以适应人体姿势，再利用扩散模型进行细节保留与合成，生成高质量的虚拟试衣结果。实验表明，这种方法在保留衣服细节和提高合成图像真实度方面优于基于GANs的传统方法。

摘要由CSDN通过智能技术生成

碎碎念的总结内容~

KEYWORDS

virtual try-on, diffusion models, appearance flow, high-resolution, image synthesis

提出了一种基于范例的插入绘制方法，它利用一个扭曲模块来有效地指导扩散模型的生成。翘曲模块对衣服进行初始处理，这有助于保存衣服的局部细节。然后，我们将扭曲的衣服与衣服不可知论的人图像相结合，并添加噪声作为扩散模型的输入。此外，扭曲的衣服被用作每个去噪过程的局部条件，以确保结果输出保留尽可能多的细节。

我们的方法有效地利用了扩散模型的力量，而翘曲模块的结合有助于产生高质量和真实的虚拟试用结果。在VITON-HD上的实验结果证明了该方法的有效性和优越性。

1. Introduction

虚拟试用是一项普遍研究的技术，可以增强消费者的购物体验。这种技术试图将一幅图像中的衣服转移到另一幅图像中的目标人，从而得到一个真实而可信的合成图像。这项任务的关键是，在假设合成结果足够真实的前提下，服装的纹理细节和目标人的其他特征属性（如外观和姿势）应该得到很好的维护。

之前的大多数虚拟尝试工作都是基于生成的对抗网络（GANs），以生成更真实的图片。为了进一步保存细节，之前的研究采用了一个显式的翘曲模块，该模块将目标衣服与人体对齐。在拿到扭曲的衣服后，他们把它和与衣服无关的人的形象一起输入发电机，以得到最终的结果。在此基础上，一些工作另外将任务扩展到高分辨率的场景。然而，这种框架的可靠性在很大程度上取决于扭曲服装的质量。低质量的翘曲服装阻碍了忠实的一代。此外，基于GANs的生成器继承了GAN模型的弱点，即收敛性在很大程度上依赖于超参数的选择，以及输出分布中的模式下降。尽管这些工作产生了一些积极的结果，但仍然存在一些问题，如不现实和糟糕的细节。

近年来扩散模型逐渐出现，并被认为是替代生成模型。与GANs相比，扩散模型可以提供理想的质量，包括分布覆盖、固定的训练目标和可伸缩性。虽然扩散模型在许多图像生成任务中都具有优异的性能，但虚拟试用仍然是一项非常具有挑战性的任务，因此保留参考图像（即服装）中的详细特征是至关重要和必要的。对于我们的虚拟试用任务，一个简单的方法是，我们可以通过文本来描述服装风格，然后使用成熟的文本到图像的扩散模型框架来完成试用任务。然而，文本很难准确地描述一些复杂的服装纹理图案，导致无法产生与我们的预期完全一致的结果。

最近，Yang等人提出了一种基于扩散模型的图像方法，该方法可以将源图像的目标区域与参考图像中的对象无缝填充，保持整体保真度和和谐。类似于这项工作，我们也把虚拟服装试穿作为一项绘画任务。主要的区别是，任务场景现在涉及到把衣服涂在人类身上。这样，我们确实可以生成高质量的合成结果，如图1 (b).所示然而，很明显，这种方法不能完全保留服装形象的细节，而且服装风格（如颜色、图案）是有偏见的。在本例中，衣服的颜色和条纹的排列与目标衣服完全不同。

基于以上几点，我们提出了一个基于扩散模型的虚拟试用框架。为了充分利用扩散模型强大的生成能力，同时提高模型对试用任务的可控性，我们将整个框架划分为两个主要模块，即扭曲模块和细化模块。与之前的虚拟试用方法类似，我们预测了翘曲模块中的一个外观流场 appearance flow field，以使衣服适合于目标人的姿势。然后，将扭曲的衣服直接与躯干和手臂被掩盖的人的形象相结合，得到一个粗糙的结果。

在加入噪声后（why？补：现在知道啦），将此粗化的结果输入到我们的细化模块中，并通过扩散模型去噪后得到改进的结果。通过这样的过程可以产生高质量的合成结果，并且扩散模型强大的生成能力也确保了我们的结果不会像以前基于gans的方法那样涉及太多的伪影。在给出了粗略结果的初始引导加上原始服装图像的全局条件引导后，我们还引用了[44]，并将油漆图像和油漆掩模连接在一起作为输入，以控制扩散模型的生成。

此外，将变形服装与油漆图像相结合(？)作为局部条件，指导去噪过程的每一步。这样，就克服了简单的不喷漆过程不能保存衣服细节的问题，如图1 (c).所示

为了评估我们提出的方法，我们在VITON-HD数据集和DressCode数据集上进行了广