TryOnDiffusion : A Table of Two UNets详解

——试穿扩散:两个UNets的故事

Abstract

给定两张描绘一个人和另一个人穿的衣服的图像,我们的目标是生成一个可视化的图像,显示衣服在输入人身上的样子。一个关键的挑战是合成一个逼真的,服装细节保留的可视化结果,同时扭曲服装,以适应重要的身体姿势和形状的变化。以前的方法要么注重服装细节的保存,而没有有效的姿势和形状的变化,要么允许以所需的形状和姿势试穿,但缺乏服装细节。在本文中,我们提出了一种基于扩散的架构,该架构统一了两个unet(称为Parallel-UNet),这使我们能够在单个网络中保留服装细节并对服装进行扭曲,以实现重要的姿势和身体变化。Parallel-UNet背后的关键思想包括:1)服装是通过交叉注意机制进行隐性的扭曲;2)服装扭曲和人的融合是一个统一过程的一部分,而不是两个独立任务的序列。实验结果表明,TryOnDiffusion在定性和定量上都达到了最先进的性能。

1. Introduction

虚拟服装试穿(Virtual apparel try-on)的目的是根据人的照片和衣服的照片来想象一件衣服穿在人身上的样子。虚拟试穿有可能增强在线购物体验,但大多数试穿方法只有在身体姿势和形状变化很小的情况下才能发挥作用。一个关键的开放问题是服装的非刚性扭曲,以适应目标体型,但同时不能引入扭曲的服装图案和质地。

当姿势或身体形状发生明显变化时,服装需要根据新的形状或遮挡形成褶皱或变平。相关工作已经通过估计像素位移来解决翘曲问题,例如光流,然后进行像素翘曲,并在与目标人混合时进行带有感知损失的后处理。然而,从根本上说,寻找位移、翘曲和混合的顺序通常会产生伪影,因为遮挡的部分和形状变形很难用像素位移精确地建模。即使使用强大的生成模型,在稍后的混合阶段删除这些工件也是具有挑战性的。作为替代方案,TryOnGAN展示了如何在不估计位移的情况下扭曲,通过条件StyleGAN2网络并优化生成的潜在空间。虽然生成的结果具有令人印象深刻的质量,但由于潜在空间的表示能力较低,输出通常会丢失细节,特别是对于高度图案化的服装。

在本文中,我们提出了可以处理大遮挡、姿势变化和身体形状变化的TryOnDiffusion,同时以1024×1024分辨率保留服装细节。TryOnDiffusion将两幅图像作为输入:目标人物图像和另一个人穿的衣服图像。它将穿着该服装的目标人合成为输出。衣服可能部分被身体部位或其他衣服遮挡,需要明显变形。我们的方法是在400万对图像上进行训练的。每一对都是同一个人穿着同一件衣服,但姿势不同。

TryOndiffusion基于我们的新架构Parallel-UNet,该架构是由两个通过交叉注意力机制[42]进行通信的子unet组成。我们的两个关键设计元素是隐性扭曲,以及扭曲和融合(目标人物和服装)的一次性的结合,而不是连续或者级联的方式。目标人物和源服装之间的隐性扭曲是通过在多个金字塔水平上交叉关注他们的特征来实现的,这允许建立远距离的对应关系。长距离通信性能良好,特别是在严重遮挡和极端姿势差异的情况下。此外,使用相同的网络执行扭曲和混合允许两个过程在特征级别交换信息,而不是在颜色像素级别交换信息,这在感知损失和风格损失中是必不可少的。

为了在1024×1024分辨率下生成高质量的结果,我们遵循Imagen[37- Photorealistic text-to-image diffusion models with deep language understanding. NIPS 2022.]并创建级联扩散模型。具体来说基于

  • 16
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

DrYJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值