StableDiffusion模型在不同硬件设备上的推理速度如何？

最新推荐文章于 2025-03-11 14:14:05 发布

alankuo

最新推荐文章于 2025-03-11 14:14:05 发布

阅读量410

点赞数 4

文章标签：人工智能

本文链接：https://blog.csdn.net/alankuo/article/details/145408580

版权

StableDiffusion模型在不同硬件设备上的推理速度大致如下：

英伟达H100：在Stable Diffusion 3测试中，80GB的H100在特定配置下，使用2个节点、16个加速器和每个加速器16个恒定批处理大小时，每秒可生成595幅图像。
英伟达A100：
- 80GB的A100在上述同样测试环境下，每秒生成381幅图像。
- 使用基本PyTorch的A100在SDXL模型上生成30 steps 1024x1024图像需3.6秒，经过TensorRT优化后为2.7秒。
英伟达RTX 4090：相比RTX 3090，推理时间大约快一半，在OneFlow加速下，相对Xformers在RTX 4090上实现了205.6%的加速。
英伟达RTX 3090：RTX 3090的性能优于同级别的A5000和A4000等，在OneFlow加速下，相对Xformers在RTX 3090上实现了211.2%的加速。
英伟达RTX 3060：在生成512×512分辨率图像时，图像生成时间为6.6秒。
英特尔Gaudi2：96GB的Gaudi2在Stable Diffusion 3测试中，2个节点、16个加速器和每个加速器16个恒定批处理大小时，每秒可生成927幅图像；在SDXL模型上，3.2秒内可生成30 steps 1024x1024图像。

普通配置：如果CPU性能不足，会导致模型推理速度变慢。如一些主频较低、核心数量少、缓存小的CPU，处理StableDiffusion任务时效率低下，生成一张普通分辨率图片可能需要较长时间，可能几十秒甚至更久。
高性能配置：AMD或Intel的高性能处理器，具有多核心和高时钟频率，能提升推理速度，但相比优化后的高端GPU，仍有较大差距，生成一张默认分辨率（512×512）图片可能需数秒到十几秒。

M系列Mac设备：优化后的Stable-Diffusion.cpp在M1 Pro以及M2 Max上推理速度有显著提升，在生成1024×1024分辨率图像时，相比原版Stable-Diffusion.cpp，推理速度提升可超过4.6倍（fp32类型），生成512×512图像时在M1 Pro上能加速1.84倍。