TryOnDiffusion : A Table of Two UNets
Methods
Image-Based Virtual Try-On. 给定一对图像(目标人物,源服装),基于图像的虚拟试穿方法生成目标人物穿着源服装的外观。目前,绝大部分方法是将试穿任务分解为两个阶段:扭曲阶段和融合阶段。尽管这些方法取得了很大的进步,但仍然存在显式光流估计和扭曲带来的不对准问题。TryOnGAN[26]通过在未配对的时尚图像上训练姿势条件化的StyleGAN2[23],并在潜在空间中运行优化来实现试穿,解决了这个问题。但TryOnGAN失去了服装的细节,即服装细节在潜在空间中的表征较少。当衣服有图案或装饰,如口袋或特殊袖子时,这一点就变得明显了。
我们提出了一种新的架构,该架构在单个网络通道中执行隐式扭曲(没有计算光流)和混合。实验表明,该方法可以在严重遮挡和各种身体姿势和形状下保持服装的细节。
目前最先进的扩散模型利用传统的UNet架构[17,34]和通道级拼接[36,38]进行图像调节。通道级拼接对于输入和输出像素完全对齐的图像到图像转换问题非常有效(例如,超分辨率,绘画和着色)。然而,它并不直接适用于我们的任务,因为试穿涉及高度非线性的转换,如服装扭曲。为了解决这一挑战,我们提出了为试穿量身定制的Parallel-UNet架构,其中服装通过交叉注意力机制进行隐式的扭曲。
图2提供了我们的虚拟试穿方法的概述。给定人物p的图像Ip和另一个人穿着服装g的图像Ig,我们的方法生成人物p穿着服装g的试穿结果Itr。
<