多模态服装设计师项目安装与配置指南-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00918/article/details/147038895

多模态服装设计师项目安装与配置指南

multimodal-garment-designer This is the official repository for the paper "Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing". ICCV 2023 项目地址: https://gitcode.com/gh_mirrors/mu/multimodal-garment-designer

1. 项目基础介绍

本项目是"Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing"的开源实现。该项目通过使用计算机视觉技术，改进时尚设计过程，允许用户通过多模态提示（如文本、人体姿态、服装草图）来指导生成以人为中心的时尚图像。项目主要使用的编程语言是Python。

2. 关键技术和框架

latent diffusion models：本项目使用了潜在扩散模型，这是一种生成对抗网络（GAN）的变体，用于生成高质量的图像。
CLIPTextModel和CLIPTokenizer：这些是用于文本编码和解码的模型和分词器，它们基于CLIP（Contrastive Language–Image Pre-training）框架，用于处理和生成与图像相关的文本描述。
AutoencoderKL和DDIMScheduler：这是用于图像编码和解码的变分自编码器，以及用于扩散过程的调度器。
PyTorch：一个流行的开源机器学习库，用于项目的深度学习实现。

3. 安装和配置

准备工作

在开始安装之前，请确保您的系统满足以下要求：

操作系统：Linux或macOS
Python版本：Python 3.9
环境管理器：conda（推荐使用Anaconda）

安装步骤

克隆项目仓库

打开终端（或命令提示符），执行以下命令以克隆项目仓库：

git clone https://github.com/aimagelab/multimodal-garment-designer.git
cd multimodal-garment-designer

创建虚拟环境并安装依赖

使用conda创建一个新的虚拟环境，并安装所需的Python依赖：

conda env create -n mgd -f environment.yml
conda activate mgd

如果您无法使用environment.yml文件，也可以手动创建环境并安装以下包：

conda create -n mgd -y python=3.9
conda activate mgd
pip install torch==1.12.1 torchmetrics==0.11.0 opencv-python==4.7.0.68 diffusers==0.12.0 transformers==4.25.1 accelerate==0.15.0 clean-fid==0.1.35 torchmetrics[image]==0.11.0

运行示例

项目的示例数据和代码位于assets/data目录下。要运行示例，请使用以下命令：
```
python src/eval.py --dataset_path ../assets/data/dresscode --dataset dresscode --output_dir ./output --save_name example --test_order paired
```
请根据需要修改dataset_path、output_dir、save_name和test_order等参数。