MajicTryOn(基于wanvideo的虚拟试穿项目)

资料加载中

于 2025-06-06 23:17:00 发布

阅读量324

点赞数 4

分类专栏： AIGC论文文章标签： AIGC

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44091004/article/details/148483833

版权

AIGC论文专栏收录该内容

15 篇文章

订阅专栏

网络结构

Attention模块详解

左边服装通过qwen2.5-VL-7B来生成详细的服装描述；线条提取器产生相应的线条map；garment和line map通过vae转换为潜在空间特征，然后分别经过patchfier,最后通过zero proj得到Garment Tokens和Line Tokens;右边是dit中的attention block模块(只包括cross attention部分)，首先是Input Tokens 经过线性层和经过clip的图像tokens做交叉注意力计算，Text Tokens (文本通过umt5 文本编码器得到)经过线性层和经过线性层的Input Tokens 进行交叉注意力计算，后面将经过交叉注意力计算的文本特征和图像特征相加在一起；FGCA也同样是交叉注意力，只不过他们是将Line Tokens和Garment Tokens经过Linear得到的K，V分别堆叠在一起后再和Input Tokens进行叉注意力计算。最后将所有的经过注意力计算的特征相加在一起。需要注意的是一个轻量化Adapter模块：自适应服装特征分布 .

训练目标函数

引入了一个mask区域loss计算，加强需要生成的衣服区域的生成保真度。

数据和评估指标

数据

VITON-HD

DressCode

ViViD

评估指标

SSIM, LPIPS, FID, and KID；前两个主要专注于两个图像像素的相似度，后两个主要专注于两个图像像素分布的相似度

实现细节

预训练模型Wan2.1-Fun-14B-Control

第一阶段使用分辨率256-512的分辨率训练，第二阶段继续训练，在512-1024分辨率上

训练视频49帧，batch_size为2。第一阶段15k步数，第二阶段10K步数。

优化器 AdamW,学习率1e-5

机器配置8 NVIDIA H20 (96GB) GPUs

参考论文

https://arxiv.org/pdf/2505.21325

目前代码未开源

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

资料加载中 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。