CP-VTON学习笔记

1、概述

虚拟试穿的目标是用一件新的服装产品合成一个照片逼真的新形象,同时忽略旧形象的影响。

与VITON一样,CP-VTON作者期望直接从2D图像合成真实感图像。提出了一个对齐网络STN和一个单通道生成框架Try-on Module。

将基于图像的虚拟试穿作为一个有条件的图像生成问题来解决,即特征保持的虚拟试穿网络

网络由两部分构成:GMM(Geometric Matching Module) + TOM(Try-on Module)

2、GMM

显式地将输入的衣服C与前面提到的人的表示P对齐,并产生扭曲的衣服图像ˆC。

其中,P由三部分构成:Pose heatmap+Body shape+Reserved regions,通道数k=18+1+3。这些特征映射都被缩放到固定分辨率256×192,并连接在一起形成k个通道的不可知的人表示映射p,

  • 姿势热图(Pose heatmap):18通道特征图,每个通道对应一个人体姿势关键点,绘制为11×11白色矩形;

  • 身体形状(Body shape):模糊二元mask的单通道特征图,大致覆盖人体的不同部位;

  • 保留区域(Reserved Regions):包含保留区域的RGB图像,用于保持人的身份,包括面部和头发。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BUgou4Pd-1638709038003)(C:\Users\Syk\AppData\Roaming\Typora\typora-user-images\image-20211205103834343.png)]

GMM网络结构:

  • (1)分别提取p和c的高级特征的两个网络。
  • (2)将两个特征组合成一个张量作为回归网络的输入的相关层。
  • (3)回归。
  • (4)一个薄板样条(TPS)变换模块T用于将扭曲后的图像变换成输出^c=Tθ(c)。

这部分与之前技术(VITON)的改进:

  • 1、从头开始训练VGG网络;

  • 2、ground truth是从穿着者图片中获取的;

  • 3、使用像素级L1损失。

3、TOM

将ˆC与目标人融合,并合成最终试穿结果。

给定人物表示p和翘曲衣服ˆc的串联输入,UNet同时渲染人物图像Ir并预测合成遮罩M。然后使用合成遮罩M将渲染的人物Ir和扭曲的衣服ˆc融合在一起,以合成最终试穿结果Io:

TOM的总体损失:

通过在M上应用L1正则化||1-M||1,我们对合成掩模M进行bias以尽可能多地选择warped clothes。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值