探索创新的图像生成：k-diffusion 开源项目详解

田轲浩

于 2024-08-15 09:24:42 发布

阅读量833

点赞数 7

本文链接：https://blog.csdn.net/gitblog_00703/article/details/141208374

版权

探索创新的图像生成：k-diffusion 开源项目详解

k-diffusionKarras et al. (2022) diffusion models for PyTorch项目地址:https://gitcode.com/gh_mirrors/kd/k-diffusion

k-diffusion 是一个基于 PyTorch 实现的开源项目，灵感来源于 Elucidating the Design Space of Diffusion-Based Generative Models（2022 年，Karras 等人）。这个库不仅提供了论文中描述的模型实现，还增加了一系列增强功能和额外特性，如改进的采样算法和基于Transformer的扩散模型。

小时glass扩散Transformer

k-diffusion 引入了一个新的模型类型 image_transformer_v2，它结合了 Hourglass Transformer 和 DiT 的思想。为了使用这一新模型，你需要安装自定义CUDA内核，如 NATTEN（用于低层次的稀疏注意力）和 FlashAttention-2（用于全局注意力）。如果这些库不可用，项目将回退到PyTorch的基本实现，但性能可能会稍逊一筹。

使用说明

演示

要训练一个在 Oxford Flowers 数据集上256x256 RGB模型，首先确保安装了 Hugging Face Datasets：

pip install datasets

然后运行：

python train.py --config configs/config_oxford_flowers_shifted_window.json --name flowers_demo_001 --evaluate-n 0 --batch-size 32 --sample-n 36 --mixed-precision bf16

若内存不足，可以尝试添加 --checkpointing 参数或降低批量大小。对于旧版GPU（前Ampere架构），省略 --mixed-precision bf16 以在FP32模式下训练。不建议在FP16模式下训练。

如果你已正确配置NATTEN，你可以通过指定 --config configs/config_oxford_flowers.json 来训练具有邻域注意力的模型。