wFlow(CVPR2022)-虚拟试衣论文解读

‘Atlas’

已于 2023-04-21 15:18:14 修改

阅读量3.3k

点赞数

分类专栏：数据生成论文详解虚拟试衣文章标签：人工智能深度学习计算机视觉

于 2022-08-26 15:06:13 首次发布

本文链接：https://blog.csdn.net/qq_41994006/article/details/126542014

版权

论文详解同时被 3 个专栏收录

72 篇文章

订阅专栏

数据生成

23 篇文章

订阅专栏

虚拟试衣

6 篇文章

订阅专栏

本文提出wFlow算法，结合2D与3D信息进行自然场景下的虚拟试衣，解决了宽松衣物、复杂姿态等问题，同时引入在线循环优化，提高了纹理精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文：《Dressing in the Wild by Watching Dance Videos》
github:暂未开源

解决问题

问题：
虚拟试衣已经取得较大进步，但是现有方法忽略了自然场景，在自然场景表现出衣服人体未对齐，精细纹理细节退化；
解决方法：
wFlow关注自然场景，并且在真实性及自然性上改进明显，尤其对于宽松衣服：skirt和dress，有挑战性pose：胳膊交叉、腿弯曲，凌乱背景；
2D pixel flow适用于紧身或宽松衣服，然而对于pose变化比较大时失效；3D vertex flow虽然在各种姿势上表现较好，但是牺牲变形自由度，对于宽松衣服表现不好；wFlow将两者结合，作者基于Dance50k视频数据（利用跨帧一致性自监督训练）进行虚拟试衣，不需要成对图像训练，降低工作量；
本文贡献如下：
1、第一次探究自然场景下衣服迁移问题。
2、可将任意服装迁移至任何自然场景下复杂姿势，wFlow结合2D与3D信息；
3、构建大规模视频数据集，Dance50k，包括50k个跳舞视频序列；

算法

在这里插入图片描述

如图1，常规训练需要成对数据， $I^s、I^q，O^q)$ ，给出 $I^s、I^q$ ，生成 $O^q$ ，然而 $O^q$ 难以获得，本文使用 $I^s，I^t，O^t)$ 进行训练，其中 $I^s$ 与 $I^t$ 为同一人不同姿势，可通过视频不同帧获取。
在这里插入图片描述

图2为wFlow整体流程，包括以下三个阶段：
有条件人体分割：生成人体layout $M^t，S^t)$
像素流估计：利用预测 $M^t、S^t$ 预测pixel flow $F^p$
wFlow引导衣服迁移

stage1: 有条件人体分割

直接使用姿态迁移进行衣服迁移，容易出现过拟合，因为训练过程使用同一人不同姿态，但在测试时为不同人体。
因此有条件分割网络（Conditional Person Segmentation, CSN）用于预测人体分割，其既能保证目标形状，又能保留源图衣服信息，如图2a所示，
CSN包括两个编码器，首先提取来自两个图像集合特征：
（1）20通道的人体分割 $S^s$ 及人体特征 $R^s$ （包括3通道RGB图、1通道人体mask（由 $S^s$ 二值化获得）、3通道densepose $D^s$ (SMPL映射到UV空间)、18通道人体关键点 $J^s$ ）
（2）目标图densepose $D^t$ 及人体关键点 $J^t$ 。使用 $D^t$ 可用于补充学习 $J^t$ 可能难以感知粗糙目标形状。
将上述两者提取到特征，送入残差网络，输出目标人体mask及分割 $M^t，S^t)$ ，如式1，对于 $M^t$ 使用L1损失， $S^t$ 使用交叉熵损失；
在这里插入图片描述

stage2: pixel flow估计

2D pixel flow用于保留图像之间结构及纹理信息，与目标无关，这保证对任意衣服款式的泛化性；因此作者使用PFN估计pixel flow $F^p$
如图2b，其输入与CSN类似，源分支与CSN输入一致，目标分支增加CSN所预测 $M^t$ 及 $S^t$
真实场景下源图与目标图难免发生较大变形，此时仅使用PFN容易产生伪影，对此引入特征关联层提高网络泛化性；
此外，编码器与解码器同层特征进行级联，加速学习进程；
解码器输入为两个同级别编码器特征及其相关性向量；由于源图与目标图为同一人不同姿势，因此可通过自监督训练pixel flow估计，通过依据pixel flow映射到目标帧的纹理与真值纹理差异性进行监督。
该过程如式2所示， $F^p$ 可以映射源图到目标图纹理特征；
本文PFN与ClothFlow区别为以下三点：
1、使用densepose $D^t$ 作为输入；
2、使用相关层提供明确特征匹配引导；
3、ClothFlow利用估计的光流扭曲每个编码特征解决特征不对齐问题，而本文没有这样做，因为如果预测光流不准确将产生累计误差；

stage3: 使用wFlow进行衣服迁移

wFlow

使用阶段2产生的2D pixel flow及3D SMPL vertex flow，提升模型容纳能力，使得当面对自然场景时，模型拥有更大姿态迁移潜力；具体来说：
1、生成拟合 $I^s、I^t$ 的SMPL body mesh，将其映射为二维UV空间的densepose表征 $D^s、D^t)$ ；
2、因为SMPL拓扑结构固定，因此可进行计算 $D^s$ 与 $D^t$ 之间二维vertex flow $F^v$ ；
3、根据式3获取wFlow $F^w$ ，
在这里插入图片描述
其中 $M^v$ 为由vertex flow $F^v$ 导出的二进制mask；该式有两个好处：
vertex flow可保证刚性人体部件具有正确纹理映射；
pixel flow可保证精确非刚性衣服变形；
4、 $F^w$ 依据目标姿态扭曲 $I^s$ 为 $I^s_w$ ，将其与 $S^t$ 、未变化的目标人体部件 $P^t$ 结合

GTN

如图2c，GTN有三个UNet生成器 $G^B、G^S、G^T$ ，
$G^B$ 修复原图与目标图背景，输入源图及目标图背景 $(B^s_m，B^t_m)$ ，输出修复后的背景 $(B^s_o，B^t_o)$ ；
$G^S$ 重构原图， $B^s_o$ 联合densepose masked源RGB图 $I^s_d$ 及源mask $M^s$ ，通过 $G^S$ 重构 $O^s$ ，尽量与 $I^s$ 一致；
由于 $D^s$ 来自SMPL mesh，因此， $I^s_d$ 中宽松衣服的一些区域会被mask，这需要 $G^s$ 学习补充 $M^s$ 以外区域， $G^s$ 生成过程如式4；
在这里插入图片描述
$G^T$ 生成训练过程中姿态迁移结果， $B^t_o$ 联合扭曲表征 $(I^s_w，P^t，S^t)$ ，通过 $G^T$ 生成姿态迁移结果 $O^t$ ；

损失函数

GTN训练损失函数针对三部分进行：融合mask $M^s_f$ 、重构 $O^s$ 、重构 $O^t$ ；
使用BCE损失监督 $M^s_f$ 及 $M^t_f$ ，如下式，
在这里插入图片描述
其中TV为正则项

对于重构 $O^s$ 和生成的 $O^t$ ，使用L1及感知损失；
对抗损失进一步缩小生成图与真值差异;
GTN损失总结如下：

在线循环优化

在这里插入图片描述
当衣服图像分辨率不高或前背景模糊时，将充满挑战，对此作者引入在线循环优化，如图3所示，通过k次（20）Cycle Block实现，
第一次，首先通过GTN完成 $I^s$ 到 $I^q$ 迁移，生成重构结果 $\hat O^s$ 及试衣结果 $\hat O^q$ ，接着使用同样GTN将 $\hat O^q$ 迁移到 $I^s$ ，生成重构 $O^s$ ，对 $\hat O^s$ 及 $O^s$ 与 $I^s$ 之间进行L1及MSE约束；
第二次，Is与Iq交换，其余同第一次；
以此循环往复，从而生成拥有边缘清晰，纹理丰富高质量图像；