大幅提升DiT模型生成速度,降低扩散模型显存开销,无问芯穹与清华、交大、微软联合团队提出ViDiT-Q与MixDQ

DiT(Diffusion Transformer) 架构模型因其优良的效果,正受到越来越多关注。一系列基于DiT架构的模型在文生图(PixArt-alpha, PixArt-Sigma, Hunyuan-DiT),与文生视频 (Sora, Vidu, OpenSora) 任务上展现了出色的生成能力。然而由于扩散模型巨大的参数规模和循环迭代式的推理特点,其运行的硬件资源消耗十分巨大,加之视频生成需要同时生成多帧图像,进一步增加了模型的硬件开销,对其实际应用带来了巨大挑战。

近期,无问芯穹联合清华大学、微软和上海交通大学研究团队发布了两项科研成果,分别介绍面向Diffusion Transformer (DiTs)的后训练量化(PTQ)方法(ViDiT-Q),以及面向少步扩散模型的混合比特量化方案(MixDQ),后者已收录于ECCV 2024。现将有关内容整理成文,并为感兴趣的读者提供论文获取渠道。

ViDiT-Q:针对以扩散变换器(Diffusion Transformer)为基础的视觉生成模型提出的后训练量化(PTQ)方法。在生成质量基本无损的前提下,ViDiT-Q能够获得2~3倍的显存优化,与约1.5倍的延迟优化。

MixDQ:针对少步扩散模型提出混合比特自动化设计,是首次实现了少步数生成模型量化实际显存与延迟优化的方案。可以在几乎无损的情况下实现W5A8的量化,获得约3.4倍显存优化,与1.5倍延迟优化。

图片

ViDiT-Q: DiT视觉生成模型优质量化方法

图片

  • 对现有Diffusion量化方案在处理DiT模型量化时的独特问题进行了分析,概括出DiT模型量化的若干关键挑战,并针对这些挑战提出对应的解决方案,设计了针对DiT的量化方案ViDiT-Q。

  • 针对更低比特量化,定位了“量化被‘瓶颈’在若干敏感层”的关键问题。并基于文生图/视频的任务特性,提出了一种指标解耦的混合位宽分配方案。

  • 在主流实验场景与模型上进行了广泛的评估。针对文图生成模型(PixArt-alpha & sigma),ViDiT-Q可实现数值指标与视觉效果完全无损的W8A8与W4A8量化。针对文视频生成模型 (OpenSora) ,ViDiT-Q在W8A8时实现数值指标无损,在W4A8时无明显视觉损失。

图片

图注:ViDiT-Q方案概述

文生视频模型的全面评测Benchmark:VBench

在VBench上评测了量化后的OpenSORA(STDiT)模型,如下表与下图所示,ViDiT-Q量化后的模型,在多方面都与全精度浮点模型获得了类似的性能。ViDiT-Q-MP的混合精度模型,在W4A8时,取得了比基线量化方案W8A8显著更优的性能。

图片

图片

图注:ViDiT-Q量化后的模型与全精度浮点模型对比

视频生成模型的多方面指标

在UCF-101数据集上测试了STDiT与Latte模型的量化结果,如下表展示,ViDiT-Q在各数据位宽上都展示了显著更优的生成质量。

图片

图注:ViDiT-Q在各数据位宽上生成质量更优

文生视频与基线量化方法的对比 

基于Open-SORA的STDiT模型,在多种位宽下,进行了多种量化方案的对比。如下表所示,各种基线量化方法都难以单独解决视频模型的量化问题,ViDiT-Q在各种位宽下都取得了更优且与全精度模型类似的性能。

图片

图片

图注:ViDiT-Q在各种位宽下都取得了更优且与全精度模型类似的性能

以下视频样例能展示ViDiT-Q与现有量化方案的视觉效果对比:

图片

文生图模型的对比

将ViDiT-Q方案应用于主流文生图DiT模型(Pixart-alpha/sigma),如下图所示,基线量化方法只能产生模糊的图片,几乎难以辨识物体。而ViDiT-Q在W8A8与W4A8量化都能产生和全精度模型几乎一样的图片。

图片

图注:主流文生图DiT模型使用ViDiT-Q的生成效果更优

原有量化方案在W8A8量化时劣化明显,难以生成符合文本的内容,在W4A8下只能生成模糊的色块。而ViDiT-Q量化方案能够生成与全精度模型几乎相同的图片/视频。

在生成质量基本无损的前提下,ViDiT-Q能够获得2-3x的显存优化,与约1.5x的延迟优化。同时,我们正在实现兼容ViDiT-Q方案的高效硬件GPU算子,欢迎持续关注我们的项目主页。

· 论文链接:https://arxiv.org/pdf/2406.02540

· 项目主页: https://a-suozhang.xyz/viditq.github.io/

· 代码链接:https://github.com/thu-nics/ViDiT-Q

图片

MixDQ: 少步扩散模型混合比特量化方案

图片

  • MixDQ分析定位了“少步扩散模型量化”的高显存开销瓶颈问题,并提出针对性解决方案。

  • 针对少步生成模型,在现有量化方案在W8A8损失严重的情况下,MixDQ在能够实现多方面指标(图像质量,文图吻合,人为偏好)无损的W8A8量化,W4A8无明显视觉损失。

  • 实现了高效的INT8 GPU算子,以实现实际的显存与延迟优化,并将模型开源为Huggingface Pipeline,通过几行代码即可调用。

图片

图注:MixDQ工作流程

视觉生成效果的对比

对比不同量化方案的生成结果,基线量化方法不仅造成了明显的视觉效果劣化(模糊,噪点),还造成了生成内容的大幅度变化。在大部分例子中,变化之后的图像内容已经不能符合文本的描述,造成“文图吻合度”的显著降低。而MixDQ W4A8之后的结果,仍然和全精度方案的图像基本一致,人眼难以分辨其差异。

图片

图注:各种量化方案生成结果展示

量化加速的对比

对比现有的其他部署优化工具的量化加速方案,MixDQ是第一个实现了少步数生成模型的量化实际显存与延迟优化的方案,且保持了生成效果与FP16几乎完全一致。其余现有方案除Nvidia未开源的TensorRT量化方案外,均不能实现延迟加速,或造成明显生成质量劣化

图片

图注:MixDQ在不同比特宽度配置对内存和延迟的影响

图片

图注:MixDQ与其他部署优化工具的量化加速方案对比

MixDQ,在现有量化方案在W8A8失败的情况下,实现了无损的W5A8量化。将扩散模型中U-Net的显存开销降低3.4倍,端到端延迟提速约1.5x,让文生图大模型“更小更快”,能够在各种小存储终端设备上被应用起来。

该论文已被ECCV 2024接收,本届共有2395篇文章被接收,录用率低于20%。

ECCV,全称为European Conference on Computer Vision(欧洲计算机视觉国际会议),是计算机视觉领域中最重要和最具影响力的国际会议之一,与ICCV(国际计算机视觉大会)和CVPR(计算机视觉与模式识别会议)并称为计算机视觉领域的“三大顶会”。ECCV每两年举办一次,今年将于9月29日在意大利米兰举办。

· 论文链接:https://arxiv.org/abs/2405.17873

· Project page:https://a-suozhang.xyz/mixdq.github.io/

· Huggingface Pipeline: https://huggingface.co/nics-efc/MixDQ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值