Asymmetric VQGAN 开源项目安装与配置指南
Asymmetric_VQGAN 项目地址: https://gitcode.com/gh_mirrors/as/Asymmetric_VQGAN
1. 项目基础介绍
Asymmetric VQGAN 是一个开源项目,旨在改进稳定扩散模型(StableDiffusion)中的图像处理能力。该项目通过引入条件分支和解码器增强设计,优化了VQGAN在处理条件输入图像任务时的性能。主要编程语言为 Python。
2. 关键技术和框架
- 稳定扩散模型(StableDiffusion): 一种用于图像生成的深度学习模型。
- VQGAN: 一种矢量量化变分自编码器,用于生成高质量图像。
- Asymmetric 设计: 在VQGAN解码器中引入条件分支,并设计更大的解码器来恢复量化码丢失的细节。
- 深度学习框架: 使用 PyTorch 进行模型训练和推理。
3. 安装和配置准备工作
在开始安装之前,请确保您的环境中已安装以下依赖:
- Python 3.7 或更高版本
- pip(Python 包管理器)
- CUDA(用于GPU加速,根据您的硬件配置安装)
安装步骤
-
克隆项目仓库
打开命令行,执行以下命令克隆项目仓库:
git clone https://github.com/buxiangzhiren/Asymmetric_VQGAN.git cd Asymmetric_VQGAN
-
安装依赖
在项目根目录下,运行以下命令安装所需的Python包:
pip install -r requirements.txt pip install wandb pip install -e git+https://github.com/CompVis/taming-transformers.git@master#egg=taming-transformers pip install -e git+https://github.com/openai/CLIP.git@main#egg=clip
-
准备训练数据
如果您打算训练自己的模型,需要准备 ImageNet 数据集。项目会尝试通过 Academic Torrents 下载和准备数据。如果已有 ImageNet 数据,可以将其放入
./datasets/ImageNet/train
目录下。 -
训练自编码器模型
-
首先下载稳定扩散模型中的自编码器权重
stable_vqgan.ckpt
。 -
在
main.py
文件中,填写您的 wandb API 密钥(第679行)。 -
根据提供的配置文件,运行以下命令开始训练:
python main.py --base configs/autoencoder/{config_spec} -t --gpus 0,1,2,3,4,5,6,7 --tag <yourtag>
其中
{config_spec}
是以下配置文件之一:autoencoder_kl_32x32x4_train.yaml
(基础解码器)autoencoder_kl_32x32x4_large_train.yaml
(1.5x 大型解码器)autoencoder_kl_32x32x4_large2_train.yaml
(2x 大型解码器)
注意:
config_spec
中的num_gpus
参数需要与您使用的GPU数量一致。
-
完成以上步骤后,您就可以开始使用 Asymmetric VQGAN 进行图像生成和处理任务了。
Asymmetric_VQGAN 项目地址: https://gitcode.com/gh_mirrors/as/Asymmetric_VQGAN