StableDiffusion模型在不同硬件设备上的推理速度大致如下:
GPU
- 英伟达H100:在Stable Diffusion 3测试中,80GB的H100在特定配置下,使用2个节点、16个加速器和每个加速器16个恒定批处理大小时,每秒可生成595幅图像。
- 英伟达A100:
- 80GB的A100在上述同样测试环境下,每秒生成381幅图像。
- 使用基本PyTorch的A100在SDXL模型上生成30 steps 1024x1024图像需3.6秒,经过TensorRT优化后为2.7秒。
- 英伟达RTX 4090:相比RTX 3090,推理时间大约快一半,在OneFlow加速下,相对Xformers在RTX 4090上实现了205.6%的加速。
- 英伟达RTX 3090:RTX 3090的性能优于同级别的A5000和A4000等,在OneFlow加速下,相对Xformers在RTX 3090上实现了211.2%的加速。
- 英伟达RTX 3060:在生成512×512分辨率图像时,图像生成时间为6.6秒。
- 英特尔Gaudi2:96GB的Gaudi2在Stable Diffusion 3测试中,2个节点、16个加速器和每个加速器16个恒定批处理大小时,每秒可生成927幅图像;在SDXL模型上,3.2秒内可生成30 steps 1024x1024图像。
CPU
- 普通配置:如果CPU性能不足,会导致模型推理速度变慢。如一些主频较低、核心数量少、缓存小的CPU,处理StableDiffusion任务时效率低下,生成一张普通分辨率图片可能需要较长时间,可能几十秒甚至更久。
- 高性能配置:AMD或Intel的高性能处理器,具有多核心和高时钟频率,能提升推理速度,但相比优化后的高端GPU,仍有较大差距,生成一张默认分辨率(512×512)图片可能需数秒到十几秒。
其他设备
- M系列Mac设备:优化后的Stable-Diffusion.cpp在M1 Pro以及M2 Max上推理速度有显著提升,在生成1024×1024分辨率图像时,相比原版Stable-Diffusion.cpp,推理速度提升可超过4.6倍(fp32类型),生成512×512图像时在M1 Pro上能加速1.84倍。