相关链接:arxiv
关键字:虚拟试衣、非配对数据学习、在野场景、深度学习、图像合成
摘要
虚拟试衣已经成为一个流行的研究主题,但是大多数现有方法侧重于拥有干净背景的工作室图像。这些方法通过从配对的训练数据中学习将服装图像变形以适应人体的形状来实现工作室试穿的设置,即,将服装图像与穿着同样服装的人的图像进行配对。这种数据通常从商业网站上收集,每件服装都有单独展示和穿在几个模特身上的图片。与之相比,在野外场景中进行虚拟试衣研究很少,因为它很难收集到配对数据,这些场景中的图片包含无序的姿势、背景和照明等。
在这项工作中,我们通过引入街头试穿基准(Street TryOn benchmark)来评估街头场景的性能,以及提出一个新的方法,可以直接从一系列在野外的人物图像中进行学习,而不需要配对数据。我们的方法通过结合一个新型的基于DensePose的变形纠正方法,以及受姿势和语义分割控制的扩散式填充,实现了在商店和街头领域的强大性能。我们的实验显示,在标准的工作室试衣任务上的竞争性能,以及在街头试衣和跨领域试衣任务的水平领先性能。
核心方法
- Street TryOn基准: 提出一个新的街头试穿基准,派生自大型时尚检索数据集DeepFashion2,用于评估街头场景中的性能。
- 无配对学习方法: 提出一种新的方法,可以直接从街头的人物图像中学习虚拟试衣,而无需配对数据。
- DensePose变形纠正方法: 结合了新型的基于DensePose的变形修正方法以及受姿势和语义分割影响的扩散式填充,即移除旧衣服,填充皮肤,并合成新的服装到目标姿势。
- 多模型协同: 利用多个强大且鲁棒的预训练组件,特别是DensePose对服装进行变形,以及扩散模型填充来移除旧衣物、填充皮肤以及将变形目标服装合成到人物上。
实验说明
实验分为多个部分,其中在Shop2Model评估中,我们的方法在配对训练得到最佳性能。有趣的是,对于其他评估设置,训练制度对性能影响较小。与SOTA方法PBAFN、FS-VTON、SDAFN和GP-VTON在VITON-HD配对数据上的表现进行了比较。实验结果表明,我们的方法在工作室图片以及街头图片的虚拟穿衣场景中都有不错的表现。
表1展示了我们的方法与之前工作在同领域和跨领域测试中的比较结果,包含了针对各种衣服和模特来源的一系列测试。
训练设置 | Shop2Model (VITON-HD) | Shop2Street | Model2Model | Model2Street | Street2Street |
---|---|---|---|---|---|
PBAFN等 | FID降低等性能指标 | 过度拟合无法适应背景复杂的街头图像 | - | - | - |
(我们的方法) | 接近最佳性能表现 | 强大的表现 | 与街头背景相媲美 | 稳健性表现 | 在任何域中都具有稳健性 |
结论
在这项工作中,我们引入了新的街头试衣基准,并提出了一种利用强大的预训练姿势估计和填充网络的方法,以能够将服装稳健地转移到在野外的图像中。尽管我们的方法取得了有希望的结果,但如图9所示的失败案例表明,它仍有改善空间,特别是我们的方法无法执行重新照明工作,从稳定扩散中继承错误的手部生成,有时也不能保留服装细节。随着更多的细致调整和更好的校正模块,许多这些问题都可以得到缓解。