(含代码)利用TensorRT的8位PTQ将Stable Diffusion速度提高 2 倍

最新推荐文章于 2025-04-03 09:37:35 发布

扫地的小何尚

最新推荐文章于 2025-04-03 09:37:35 发布

阅读量2.9k

点赞数 31

文章标签： stable diffusion 人工智能 GPU AI AIGC nvidia tensorrt

本文链接：https://blog.csdn.net/kunhe0512/article/details/136676452

版权

利用TensorRT的8位PTQ将Stable Diffusion速度提高 2 倍

在这里插入图片描述

在生成人工智能的动态领域中，扩散模型脱颖而出，成为生成带有文本提示的高质量图像的最强大的架构。像稳定扩散这样的模型已经彻底改变了创意应用。

然而，由于需要迭代去噪步骤，扩散模型的推理过程可能需要大量计算。这对于努力实现最佳端到端推理速度的公司和开发人员提出了重大挑战。

从 NVIDIA TensorRT 9.2.0 开始，我们开发了一流的量化工具包，具有改进的 8 位（FP8 或 INT8）训练后量化 (PTQ: Post-Training Quantization)，可显着加快 NVIDIA 硬件上的扩散部署，同时保持图像质量。 TensorRT 的 8 位量化功能已成为许多生成型 AI 公司的首选解决方案，特别是创意视频编辑应用程序的领先提供商。

在这篇文章中，我们讨论 TensorRT 与 Stable Diffusion XL 的性能。我们介绍了使 TensorRT 成为低延迟稳定扩散推理的首选的技术优势。最后，我们演示如何使用 TensorRT 通过几行更改来加速模型。

性能指标

与在 FP16 中运行的本机 PyTorch 的 torch.compile 相比，用于扩散模型的 NVIDIA TensorRT INT8 和 FP8 量化方案在 NVIDIA RTX 6000 Ada GPU 上实现了 1.72 倍和 1.95 倍的加速。 FP8 相对于 INT8 的额外加速主要归因于多头注意力 (MHA) 层的量化。使用 TensorRT 8 位量化可以增强生成式 AI 应用程序的响应能力并降低推理成本。

在这里插入图片描述