文章目录
论文: 《MUST-GAN: Multi-level Statistics Transfer for Self-driven Person Image Generation》
github: https://github.com/TianxiangMa/MUST-GAN
创新点
姿态引导人体图像生成通常使用源图与目标图成对数据进行训练,因此数据准备成本比较大,本文提出方法从人体图像分离病转移多层次外观特征,并将它们与姿态特征进行合并进而重构源图,这种自监督方式不需要成对样本;
MUST-GAN贡献如下:
1、提出自监督图像生成方案,不需要成对数据;
2、提出多层级统计量迁移网络,解耦外表特征,用于灵活控制人体外观和姿势属性;
3、在姿态迁移和衣服风格变换任务上取得SOTA。
算法
MUST-GAN结构如图2,
MUST-GAN主要包括四部分:
两个分别用于人体外观和姿态的编码器、多层统计变换网络(MUST)、多层统计匹配生成网络。
Pose Encoder
编码关键点heatmap P a P_a Pa以及关键点连接map P a _ c o n P_{a\_con} Pa_con到高维空间,用于引导生成网络。
Appearance Encoder
获取人体语义分割map S a S_a Sa,与人体图相乘得到 I a _ p a r t s I_{a\_parts} Ia_parts,将复杂人体分割为几部分。外观编码器为了提取不同层级的丰富鲁棒特征用于MUST模块。
Multi-level Statistics Transfer(MUST)
为了有效解耦及迁移外观属性,作者提出MUST,MUST使用外观编码器输出由浅到深4层特征,如图2b。
1、对每层特征使用channel attention(CA)获取自适应权重,通过卷积层降低channel到合适生成网络的大小(Conv);
2、提取每层特征的统计量(均值、方差)(SE),统计量可以表征风格信息;
3、使用多个FC层(Trans)转换提取到的属性统计量,便于学习生成器中统计量的映射;
如图3,MUST可以获取并迁移更准确外观属性。
MUST网络可以表示为式2,
Multi-level Statistics Matching Generator
多层级统计量匹配生成器其由4个统计量匹配残差网络(SE ResBlock)构成,如图2c,过程如下:
1、从MUST获取的统计量通过AdaIN应用于生成器;
2、使用多层级残差网络作为生成器backbone,使用可学习skip connection补充残差结构;
3、双线性上采样用于逐步增加特征图分辨率;
4、最终通过1X1卷积进行重构,其结合各个channel特征。
Discriminator
两个判别器:
D
I
D_I
DI和
D
P
D_P
DP分别进行人体图及姿态图判别;
其中对于
D
P
D_P
DP增加姿势连接图
P
a
_
c
o
n
P_{a\_con}
Pa_con,两个判别器均使用残差网络及降采样卷积层。
损失函数
损失函数如式7,包括对抗损失、重构损失、感知损失、风格损失:
对抗损失:
如式3,包含
D
I
D_I
DI和
D
P
D_P
DP两个判别器,使得生生成人体图像更加真实;
重构损失:
如式4,使得生成图像与原始图像像素级匹配。
感知损失:
如式5,在特征层级进行约束;
风格损失:
如式6,为了进一步改善纹理颜色等外观属性相似性;使用Gram矩阵计算输入图与生成图激活层之间统计量差值;
实验
生成质量比较
表1为与现有无监督方法,在DeepFashion数据集上比较结果,
表2为与现有无监督方法,在DeepFashion数据集上比较结果,
与SOTA方法比较如图5,
消融实验
作者对MUST模块、CA机制、 姿态连接图(PCM) 进行消融实验,结果如表3
衣服迁移
衣服迁移结果如图6
Test in The Wild
自然环境下目标迁移测试如图7,作者将目标进行分割,放置到干净背景上,减少背景干扰。
结论
作者提出新颖的多层级统计量迁移模型。实现自监督人体图像生成;在成对训练数据缺失时,解耦并迁移外观及姿态属性。