IDM-VTON-虚拟试衣论文解读


论文:《Improving Diffusion Models for Virtual Try-on》(https://arxiv.org/abs/2403.05139)
github: 训练代码暂未开源
huggingface demo: https://huggingface.co/spaces/yisol/IDM-VTON

摘要

IDM–VTON使用两个不同模块编码衣服图片语义信息:
1、从视觉编码器中提取的高级语义被融合到cross-attention层
2、将从并行UNet中提取的底层特征融合到self-attention层

解决问题

常规的方法使用GAN进行虚拟试衣,通过扭曲模块将衣服变形到目标人体,通过GAN进行渲染,但是这种方法在生成高质量图像方面存在困难,并且经常无法泛化到不同的人物图像,给衣服引入了不希望的失真

算法

IP-Adaptor公式如式3,i表示image向量、c表示text向量,
在这里插入图片描述
IDM–VTON模型主要包括三部分,如图2:

  1. 基础Unet(TryonNet):用于生成图像。输入包括4部分:person image、移除人体衣服的mask、根据mask扣出的人体、Densepose结果,并通过VAE编码器至隐空间;
  2. IP-Adapter:作者使用frozen CLIP图像编码器提取衣服高层级语义信息,微调特征映射层以及交叉注意力层;
  3. 衣服Unet(GarmentNet):虽然IP-Adapter以衣服作为条件,但是对于复杂图案难以保留精细化特征。因此作者使用额外UNet提取中间特征并与TryonNet中间特征合并,进行self-attention,仅将前半部分传递给TryonNet。对于GarmentNet作者使用SDXL使用丰富生成先验知识,补充IP-Adapter容易忽视的低层级特征;
    在这里插入图片描述

衣服描述细节:如图2,作者使用全面衣服描述,如图7,这有助于编码高层级衣服语义信息。作者使用OMNIOUS.AI进行衣服属性。
训练集:一方面可以通过构建人体衣服对,另一方面如果仅有人体数据,可以通过分割衣服至白色背景构建。

实验

在未见过数据集上泛化性定量测试结果如表2
在这里插入图片描述
定性测试结果如图5,
在这里插入图片描述

结论

  1. 作者提出的IDM-VTON使用两个独立的模块编码衣服特征,分别有效地将高级语义和低级特征编码到基本UNet中;
  2. 为了改进现实场景下的虚拟试穿,作者利用成对图文数据微调UNet的解码器层来定制模型;
  3. 作者利用服装的详细自然语言描述,这有助于生成真实的虚拟试穿图像;
  4. 在各种数据集上的大量实验表明,该方法在保留服装细节和生成高保真图像方面优于先前的工作。特别地,展示了该方法在未见过数据集上虚拟试衣的潜力;
    在huggingface demo测试发现该方法泛化性能力比较强
  • 12
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值