文章链接:https://arxiv.org/pdf/2407.12705
github链接:https://imagdressing.github.io/
Demo试用:https://sf.dictdoc.site/
亮点直击
为商家引入了一项新的虚拟试衣(VD)任务,并设计了一个综合亲和力测量指数(CAMI)用于评估生成图像与参考服装之间的一致性。
提出了IMAGDressing-v1,其中包括一个用于提取细粒度服装特征的服装UNet和一个带有混合注意力模块的去噪UNet,以平衡服装特征与文本提示控制。
IMAGDressing-v1可以与其他扩展插件(如ControlNet和IP-Adapter)结合,以增强生成图像的多样性和可控性。
收集并发布了一个大规模的互动服装配对(IGPair)数据集,包含超过30万对服装和穿戴图像,供社区探索和研究。
目前已经通过使用潜在扩散模型的局部服装修补实现了逼真的虚拟试衣(VTON),显著提升了消费者的在线购物体验。然而,现有的VTON技术忽略了商家全面展示服装的需求,包括对服装、面孔、姿势和场景的灵活控制。
为了解决这一问题,本文定义了一个虚拟试衣(VD)任务,专注于生成具有固定服装和可选条件的可自由编辑的人像。同时,设计了一个综合亲和力指标(CAMI),用于评估生成图像与参考服装之间的一致性。并提出了IMAGDressing-v1,它结合了一个捕捉CLIP语义特征和VAE纹理特征的服装UNet。同时提出了一种混合注意力模块,包括一个冻结的自注意力和一个可训练的交叉注意力,将服装UNet中的服装特征整合到一个冻结的去噪UNet中,确保用户可以通过文本控制不同的场景。IMAGDressing-v1可以与其他扩展插件(如ControlNet和IP-Adapter)结合,以增强生成图像的多样性和可控性。此外,为了解决数据缺乏的问题,发布了互动服装配对(IGPair)数据集,包含超过300,000对服装和穿戴图像,并建立了一个标准的数据组装流程。大量实验表明,IMAGDressing-v1在各种受控条件下实现了最先进的人像合成性能。
与MagicClothing对比
与IP-Adapter结合