基于 NNCF 和 Optimum 面向 Intel CPU 对 Stable Diffusion 优化

Hugging Face

于 2023-07-12 18:00:28 发布

阅读量946

点赞数

文章标签： stable diffusion 人工智能

本文链接：https://blog.csdn.net/HuggingFace/article/details/131693353

版权

🤗 宝子们可以戳 阅读原文 查看文中所有的外部链接哟！

基于隐空间的扩散模型 (Latent Diffusion Model)，是解决文本到图片生成问题上的颠覆者。Stable Diffusion 是最著名的一例，广泛应用在商业和工业。Stable Diffusion 的想法简单且有效: 从噪声向量开始，多次去噪，以使之在隐空间里逼近图片的表示。

但是，这样的方法不可避免地增加了推理时长，使客户端的体验大打折扣。众所周知，一个好的 GPU 总能有帮助，确实如此，但其损耗大大增加了。就推理而言，在 2023 年上半年 (H1’23)，一个好 CPU 实例 (r6i.2xlarge，8 vCPUs ，64 GB 内存) 价格是 0.504 $/h，同时，类似地，一个好 GPU 实例 (g4dn.2xlarge，NVIDIA T4，16 GB 内存) 价格是 0.75 $/h ，是前者的近 1.5 倍。

这就使图像生成的服务变得昂贵，无论持有者还是用户。该问题在面向用户端部署就更突出了: 可能没有 GPU 能用！这让 Stable Diffusion 的部署变成了棘手的问题。

在过去五年中，OpenVINO 集成了许多高性能推理的特性。其一开始为计算机视觉模型设计，现今仍在许多模型的推理性能上取得最佳表现，包括 Stable Diffusion。然而，对资源有限型的应用，优化 Stable Diffusion 远不止运行时的。这也是 OpenVINO NNCF(Neural Network Compression Framework) 发挥作用的地方。

在本博客中，我们将理清优化 Stable Diffusion 模型的问题，并提出对资源有限的硬件 (比如 CPU) 减负的流程。尤其是和 PyTorch 相比，我们速度提高了 5.1 倍，内存减少了 4 倍。