ICCV 2023 | 虚拟试衣、可控人像生成，5篇论文看扩散模型diffusion应用

最新推荐文章于 2025-05-09 17:56:03 发布

机器学习与AI生成创作

最新推荐文章于 2025-05-09 17:56:03 发布

阅读量1.8k

点赞数 16

文章标签：人工智能计算机视觉深度学习

本文链接：https://blog.csdn.net/lgzlgz3102/article/details/136161594

版权

虚拟试衣、人像生成相关论文

1、DiffCloth: Diffusion Based Garment Synthesis and Manipulation via Structural Cross-modal Semantic Alignment

跨模态的服装合成和操作，极大改善设计师通过灵活的语言界面生成服装和修改设计的方式。然而，尽管用扩散模型在通用图像生成方面取得显著进展，但是生成与输入的文本提示良好对齐的具有服装局部语义的服装图像，并灵活编辑仍是问题。

当前方法遵循通用的文本到图像范式，并通过简单交叉注意力模块挖掘跨模态关系，忽视时尚设计领域中视觉和文本表示之间的结构对应关系。本文提出DiffCloth，一种用于跨模态服装合成和操作、基于扩散的流水线，通过结构对齐跨模态语义，为扩散模型赋予了在时尚领域中的灵活组合性。

具体而言，将部分级跨模态对齐问题定义为语言属性短语（AP）和基于组成性解析和语义分割获得的视觉服装部件之间的二部图匹配问题。为减轻属性混淆的问题，进一步提出语义绑定的交叉注意力，以保留每个AP中属性形容词和部位名词的注意力映射之间的空间结构相似性。

此外，DiffCloth允许通过简单地替换文本提示中的AP来操纵生成的结果。使用AP的捆绑注意力图获得的混合掩码可以识别不需要操纵的区域并保持不变。在CM-Fashion基准上的广泛实验表明，DiffCloth通过利用固有的结构信息产生了最先进的服装合成结果，并支持具有区域一致性的灵活操作。

2、DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion

提出DreamPose，一种基于扩散的方法，用于从静止图像生成驱动的时装视频。给定一张图像和一系列人体姿势，方法合成一个包含人体和面料运动的视频。为实现这一点，将预训练的文本到图像模型（稳定扩散）转化为一个以姿势和图像为导向的视频合成模型，采用一种新的微调策略，一组支持新增条件信号的架构更改，以及鼓励时间一致性的技术。

在UBC时尚数据集的一组时尚视频上进行微调。在各种服装风格和姿势上评估方法，并证明方法在时装视频驱动方面取得最先进结果。已开源在：https://grail.cs.washington.edu/projects/dreampose/

3、Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing

时尚插图被设计师用于传达他们的愿景，并将设计理念从概念化转化为实现，展示服装与人体的互动。在这个背景下，计算机视觉可以用来改进时尚设计的过程。与之前主要关注虚拟试穿服装的作品不同，提出多模态条件时尚图像编辑的任务，通过文本、人体姿势和服装草图等多模态提示来引导人体中心的时尚图像的生成。

通过提出一种基于潜在扩散模型的新架构来解决这个问题。鉴于现有数据集不适合这个任务，还以半自动的方式扩展了两个现有的时尚数据集，即Dress Code和VITON-HD，以收集多模态标注。这些新数据集上的实验结果证明方法有效性，无论是从逼真度还是与给定的多模态输入的一致性方面。已开源在：https://github.com/aimagelab/multimodal-garment-designer

4、Controllable Person Image Synthesis with Pose-Constrained Latent Diffusion

可控人像生成，旨在根据用户指定的身体姿势或外貌变化渲染源图像。先前方法利用基于像素级的去噪扩散模型，并通过交叉注意力对粗略骨架进行条件约束。这导致了两个限制：低效率和不准确的条件信息。

为解决这两个问题，引入了一种新的姿势约束潜在扩散模型（PoCoLD）。与使用骨架作为稀疏姿势表示的方法不同，利用DensePose提供更丰富的身体结构信息。为有效利用DensePose，并且成本较低，提出一种高效的姿势约束注意力模块，能够模拟外貌和姿势之间的复杂相互作用。

实验表明，PoCoLD在图像合成的保真度上优于最先进的竞争方法。关键是，它在推理过程中运行速度比最新的基于扩散模型的替代方法快2倍，并且存储器占用量比最新方法小3.6倍。已开源在：https://github.com/BrandonHanx/PoCoLD

5、HumanSD: A Native Skeleton-Guided Diffusion Model for Human Image Generation

可控人像生成，在现实生活中有很多应用。现有解决方案，如ControlNet和T2I-Adapter，在冻结的预训练扩散（SD）模型之上引入了一个额外的可学习分支，可以强制执行各种条件，包括HIG的骨架指导。尽管这种即插即用的方法很吸引人，但从冻结的SD分支产生的原始图像与给定条件之间的不可避免和不确定的冲突给可学习分支带来了重大挑战，这实质上是为了进行给定条件的图像特征编辑。

这项工作提出一种用于可控HIG的本地骨架引导扩散模型，称为HumanSD。并不通过双分支扩散进行图像编辑，而利用一种新的热图引导去噪损失来对原始SD模型进行微调。这种策略在模型训练过程中有效而高效地加强了给定的骨架条件，并减轻了灾难性遗忘效应。

HumanSD在三个大规模人体中心数据集的组合上进行了微调，这些数据集具有文本-图像-姿势信息，其中两个是在本工作中建立的。在准确的姿势控制和图像质量方面，HumanSD优于ControlNet，特别是当给定的骨架指导复杂时。已开源在：https://github.com/IDEA-Research/HumanSD

关注公众号【机器学习与AI生成创作】，更多精彩等你来读

不是一杯奶茶喝不起，而是我T M直接用来跟进 AIGC+CV视觉前沿技术，它不香？！

卧剿，6万字！30个方向130篇！CVPR 2023 最全 AIGC 论文！一口气读完

深入浅出stable diffusion：AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet，一种可控生成的AIGC绘画生成算法！

经典GAN不得不读：StyleGAN

戳我，查看GAN的系列专辑~！