IDM-VTON-虚拟试衣论文解读

‘Atlas’

于 2024-07-08 13:43:17 发布

阅读量784

点赞数 12

分类专栏：论文详解虚拟试衣跨模态文章标签： idm 虚拟试衣

本文链接：https://blog.csdn.net/qq_41994006/article/details/140264282

版权

72 篇文章 16 订阅

订阅专栏

25 篇文章 2 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

论文：《Improving Diffusion Models for Virtual Try-on》(https://arxiv.org/abs/2403.05139)
github：训练代码暂未开源
huggingface demo： https://huggingface.co/spaces/yisol/IDM-VTON

摘要

IDM–VTON使用两个不同模块编码衣服图片语义信息：
1、从视觉编码器中提取的高级语义被融合到cross-attention层
2、将从并行UNet中提取的底层特征融合到self-attention层

常规的方法使用GAN进行虚拟试衣，通过扭曲模块将衣服变形到目标人体，通过GAN进行渲染，但是这种方法在生成高质量图像方面存在困难，并且经常无法泛化到不同的人物图像，给衣服引入了不希望的失真

IP-Adaptor公式如式3，i表示image向量、c表示text向量，
在这里插入图片描述
IDM–VTON模型主要包括三部分，如图2：

基础Unet(TryonNet)：用于生成图像。输入包括4部分：person image、移除人体衣服的mask、根据mask扣出的人体、Densepose结果，并通过VAE编码器至隐空间；
IP-Adapter：作者使用frozen CLIP图像编码器提取衣服高层级语义信息，微调特征映射层以及交叉注意力层；
衣服Unet(GarmentNet)：虽然IP-Adapter以衣服作为条件，但是对于复杂图案难以保留精细化特征。因此作者使用额外UNet提取中间特征并与TryonNet中间特征合并，进行self-attention，仅将前半部分传递给TryonNet。对于GarmentNet作者使用SDXL使用丰富生成先验知识，补充IP-Adapter容易忽视的低层级特征；

衣服描述细节：如图2，作者使用全面衣服描述，如图7，这有助于编码高层级衣服语义信息。作者使用OMNIOUS.AI进行衣服属性。
训练集：一方面可以通过构建人体衣服对，另一方面如果仅有人体数据，可以通过分割衣服至白色背景构建。

在未见过数据集上泛化性定量测试结果如表2
在这里插入图片描述
定性测试结果如图5，

作者提出的IDM-VTON使用两个独立的模块编码衣服特征，分别有效地将高级语义和低级特征编码到基本UNet中；
为了改进现实场景下的虚拟试穿，作者利用成对图文数据微调UNet的解码器层来定制模型；
作者利用服装的详细自然语言描述，这有助于生成真实的虚拟试穿图像；
在各种数据集上的大量实验表明，该方法在保留服装细节和生成高保真图像方面优于先前的工作。特别地，展示了该方法在未见过数据集上虚拟试衣的潜力；
在huggingface demo测试发现该方法泛化性能力比较强

关注

专栏目录