【AI换装】CatVTON虚拟换装只需简单三步,6GB显卡可用

CatVTON简介

CatVTON是由中山大学、美图和鹏城实验室联合发布的基于扩散模型的虚拟试穿技术工具旨在提供高效、低资源需求的虚拟试穿体验。通过在空间维度上简单地拼接服装和人物图像来实现不同类别服装的虚拟试穿,该方法有效地降低了模型复杂度和计算成本,同时保持了高质量的虚拟试衣效果,特别适用于电商平台、服装设计、增强现实和虚拟时装秀等场景。

项目已公开论文并开源权重、代码,更有在线Demo可以试玩!

项目主页: https://zheng-chong.github.io/CatVTON

论文地址: https://arxiv.org/abs/2407.15886

主要特点

轻量级与高效性:CatVTON采用轻量级网络结构,总参数量为899.06M,训练时只需49.57M的可训练参数。推理过程在1024×768分辨率下仅需不到8GB的显存,对电脑配置要求较低,个人电脑也能轻松运行。

高分辨率支持:支持高分辨率操作,能够生成高质量的虚拟试穿图像。

高度还原细节:能够高度还原不同模特的姿势动作、面部表情以及不同体型的细节,同时保留服装的褶皱、纹理、LOGO和版型等细节。

多任务、多品类支持:不仅支持传统的平铺服装图到人物的换装,还支持上衣、裤子、裙子、套装等不同品类的同时换装,甚至支持人物A到人物B的随心换装。

轻量化模型架构

CatVTON 在功能上丰富多样, 但其模型架构却十分简洁高效:

  1. 2 个网络模块(VAE+UNet)
  2. 899.06M 总参数量
  3. < 8G 推理显存(输出图像尺寸 1024×768 )

轻量化的架构来源于 CatVTON 对现有方法模块冗余的观察:

  1. 基于Warping的方法依靠几何匹配对服装进行形变再利用试穿模块融合,结果生硬不自然;基于扩散模型的方法引入 ReferenceNet,加重了训练和推理的负担;

具体而言,CatVTON 通过在输入上把人物、服装在通道维度拼接(Concatenate),在结构上摆脱了对额外的 ReferenceNet 的依赖,跳过了对图像虚拟试衣来说没有显著帮助的文本交叉注意力,同时也不需要任何额外的图像编码器来辅助生成。

下表详细地比较了不同方法与 CatVTON 的模块数量、参数量、可训练参数量、显存占用、推理条件。在网络模块上,CatVTON 只需要 VAE+UNet,无需任何额外的编码器;在模型总参数量上,CatVTON 比其他方法至少缩减了44% ;在显存占用上,CatVTON 也只有其他方法的一半甚至更低,体现了 CatVTON 在模型架构轻量化上的优势。

参数高效训练

在训练上,CatVTON 探究了在将预训练扩散模型迁移到 TryOn 任务时去噪 UNet 中真正起作用的模块。

首先,去噪 UNet 在结构上是由不同特征尺度的ResNet 和 Transformer Blocks 堆叠而成(如下图)。其中 ResNet 是卷积网络,具有空间不变性,适用于特征的提取,并不负责跨空间的特征交互,这一部分在扩散模型进行大规模预训练时,已经具备了足够的特征编码能力,因此与迁移到 TryOn任务关联性不强。

Transformer Block 内部结构又可以细化为三个部分:Self Attention, Cross Attention 和 FFN。其中Cross Attention在 T2I 任务中用于与文本信息交互,FFN 起到特征映射的作用,因此与服装、人物特征交互最相关的便是 Self Attention。

理论上确定了需要训练的模块后,在实验上,CatVTON 文中还进行了消融,发现对 UNet、Transformer Block 和 Self Attention 分别进行解锁训练,其可视化结果并没有明显的差异,同时在指标上也十分接近,验证了“Self Attention是将预训练扩散模型迁移到 TryOn 任务的关键模块”的假设。

最后通过理论和实验锁定的Self Attention 部分,只有49.57M参数,仅占总参数量 5.71% 的部分,对其进行微调,就可以实现逼真的试穿效果,在上一节表格中可以看到,相较于其他方法,CatVTON 将可训练参数量减少了10倍 以上。

上图也展示了 CatVTON 和其他方法在参数高效性上的对比(每个方法用两个同心圆表示,外圆代表总参数量,内圆代表可训练参数量),可以看出 CatVTON 拥有更低可训练参数量,但却在指标(FID↓)上优于其他方法。

保姆级教程,免费学习工具,小白一分钟轻松上手

F5-AI社区为大家准备了CatVTON本地离线一键整合包,包括详细的教学课程、免费的CatVTON一键安装包等详细教学资料。即便技术小白,也能确保一分钟熟练上手。

下面,为大家演示一下:

第一步:下载安装包将【CatVTON.zip】安装包下载到您的电脑本地(下载链接放在文章末尾)。

第二步:解压【CatVTON.zip】后,双击【CatVTON.exe】启动程序。

第三步:准备好素材,上传模特图片和服装照片,再点击【提交】按钮,开始生成

第四步:换装结束后,生成的视频会自动保存在【CatVTON.exe】同级目录下的【output】文件夹中

下载地址

百度网盘下载链接(永久有效):

链接:https://pan.baidu.com/s/1-4DfK8R8Fq4A3Auh2dQyuw?pwd=gtcy

123网盘下载链接(永久有效):

链接:https://www.123pan.com/s/5DsaTd-AzGc.html

夸克网盘下载链接(永久有效):

链接:https://pan.quark.cn/s/c16861a9b4db

关于F5-AI社区

F5 AI社区是一个紧跟全球AI技术和AI产品,秉承“有教程就会有工具”的运营理念,及时为用户整合、提供各类AI工具教程的社区,不管你是0基础学员还是有基础,我们从提供本地离线AI工具开始,让您无限量不限时使用,更有全套在线教程助您无忧学完快速上手,同时我们的AI专家24小时在线,为您解答各种技术疑难问题,助您真正0门槛,0成本,即使是从未接触过的技术小白也能快速无脑掌握前沿的AI技能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值