学习报告5
目录
1. 二维虚拟试衣技术
1.1 发展历史
在过去的几年中,在线时装行业已经受到诸如增强现实,虚拟现实,可穿戴技术和互联试衣间等最新技术创新的影响。无论是用于创建新产品目录还是为购物者提供沉浸式环境,它都可能影响电子商店并为新的易于图像编辑的可能性打开大门。
在早期,相关工作的处理使用三维测量和基于模型的方法,例如2012年的DRAPE: DRessing Any PErson ,2014年的Subspace Clothing Simulation Using Adaptive Bases,2017年的。然而,它们本质上是计算密集型的并且需要昂贵的成本,这对于购物者而言通常是不可接受的。而利用图像合成技术则可以降低零售商的成本。在计算机视觉中,图像生成模型(例如2014年的GAN,2016 年的PixelDTGAN等)能够生成高质量的真实感图像,已成功应用于众多应用中。
最近的工作旨在利用深度生成模型来解决虚拟试戴问题,例如2017年的有条件的类比GAN:在人像上时尚换装(CAGAN),2018年的VITON:基于映像的虚拟试穿网络以及同年的改进版Toward Characteristic-Preserving Image-based Virtual Try-On Network(CP-VTON),2019年的Towards Multi-pose Guided Virtual Try-on Network(MG-VTON )。
CAGAN (有条件的类比GAN:在人像上时尚换装)提出了一种基于U-Net的GAN 方法。但是,由于这些网络无法处理较大的空间变形,因此这些方法无法产生实际的结果。在VITON 中,作者使用形状上下文匹配算法(使用形状上下文进行形状匹配和对象识别,2012)将布料扭曲在目标人物上,并使用U-Net生成器学习图像合成。为了改进此模型,CP-VTON 引入了卷积几何匹配器(用于几何匹配的卷积神经网络架构,2017),该算法学习几何变形的参数(即thin-plate spline transform薄板样条变换,1989)以使布料与目标人对齐。在MG-VTON,该任务将扩展到多姿势试穿系统,该系统需要修改人的姿势以及上身的衣服。
大多数的试穿方法都是基于单个图像的,不过也有基于视频的虚拟试穿,例如2019年的FW-GAN: Flow-navigated Warping GAN for Video Virtual Try-on。
1.2人体解析
以根据身体(各部分)、脸部、头发、衣服和目标姿势的近似形状估算目标图像的合理人体分析,可以有效地指导人体部位的精确区域的合成。
人类解析已经被研究用于人体部分的精细分割(基于关键点的弱监督人解析)。后来有研究者将对象分割扩展到对象零件级分割(使用整体模型和身体部位检测和表示对象),并发布了PASCAL PART数据集,其中包括人体的像素级零件注释。有人收集了一个新的人数据集(LIP)进行人体分析和服装分割(面向人:自我监督的结构敏感学习和人类解析的新基准,面向人:联合体分析与姿态估计网络及新基准)。有研究者提出了一种多路径优化网络,以实现高分辨率和精确的零件分割(RefineNet:用于高分辨率语义分割的多路径优化网络)。利用LIP可以提取覆盖人体图像中衣服部分的感兴趣区域。
除了人类解析为部分分割,在工程使用零件相似性字段的实时多人2D姿势估计和Densepose研究了人类姿势为姿态分析估计。前者的研究者提出了一种基于关键点的人体姿态估计的部分亲和力场。后来,为了实现更准确的姿势估计,DensePose通过将每个像素映射到一个密集的姿势点,提出了稠密的人类姿势估计方法。
1.2.1 人体分割
(参考链接: 论文翻译 人体解析数据集及论文 ClothFlow PGN)
服装的外观在很大程度上取决于体型,因此如何转移目标时装项目取决于不同身体部位(如手臂或躯干)的位置和体型。使用人类分析器来计算人类分割图。
VITON & CP-VTON
如图,网络输入之一人体表示p由三个部分组成。
Body shape:使用面向对象:自我监督的结构敏感学习和人类解析的新基准的人类分析器来计算人类分割图,其中不同的区域表示人体的不同部分,如手臂、腿等。进一步将分割图转换为一个1通道二进制掩码,其中1表示人体(除了脸和头发),0表示其余。直接从I派生的二元掩模被降采样到较低的分辨率,以避免当身体形状和目标服装发生冲突时出现伪影。
Face and hair:为了保持人的身份,作者结合了人脸、肤色、发型等物理属性,使用同一个人类解析器提取人脸和头发区域的RGB通道,在生成新图像时注入身份信息。
MG-VTON
为了在处理衣服和姿势时保持人的结构一致性,作者设计了一个以姿势衣服为导向的人体解析网络,该网络以衣服的图像,姿势热图,身体的近似形状,脸和头发的mask为条件。如图所示,由于直接将人和衣服的图像输入模型,基线方法无法保留人的某些部分(例如,裤子的颜色和头发的样式已被替换)。在这项工作中,作者利用人工分析图来解决这些问题,这可以帮助生成器在零件级别上合成高质量图像。
Conditional Parsing Learning条件解析学习模块包含一个由姿势衣服引导的网络,该网络预测人体的解析图,从而有助于生成高质量的人像。
ClothFlow 条件布局生成器
ClothFlow:这是一个appearance-flow-based生成模型,用于合成穿戴服装的人,用于姿势指导人的图像生成和虚拟试穿。
要合成人物图像,一个好的实践是首先预测一个语义布局,该布局对外观的生成构成结构约束。我们使用现成的姿势估计器(使用零件相似性字段的实时多人2D姿势估计)和人类解析器(PGN通过零件分组网络进行实例级人员解析),以获得用于训练目标布局生成器的个人姿势和布局表示,最终得到目标人体的分割信息。
条件式人体布局生成器以目标姿态为条件预测目标人体的分割布局信息。这样可以把形状和外观的生成分解开来,从而使得
ClothFlow 生成的结果在空间上更具一致性。
1.2.2 姿势表示——关键点热图
(参考链接:使用零件相似性字段的实时多人2D姿势估计 论文翻译)
<