一步一步理解大模型：模型量化技术3 - GPTQ

最新推荐文章于 2025-04-14 22:00:00 发布

原创

最新推荐文章于 2025-04-14 22:00:00 发布

· 5.9k 阅读

·

1

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #人工智能

GPTQ是一种针对生成式预训练Transformer模型如GPT的量化技术，利用近似二阶信息，在保持高精度的同时大幅压缩模型，甚至能将1750亿参数的模型量化至3-4位权重。这种方法能在单个GPU上运行大规模模型，提供端到端的推断加速，相对FP16，加速比可达3.25-4.5倍。GPTQ基于OBQ并进行了优化，适用于大型语言模型的量化处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文介绍专门为生成式预训练模型设计的量化技术GPTQ

GPTQ是一种一次性权重量化方法，专为生成预训练Transformer（GPT）模型设计。该方法基于近似二阶信息，旨在实现高度准确和高效。

关于GPTQ的关键点：

GPTQ可以在大约四个GPU小时内量化具有1750亿参数的GPT模型，将位宽减少到每个权重的3或4位，与未压缩的基线相比，准确性降低可以忽略不计。
该方法的压缩增益是以前提出的一次性量化方法的两倍多，保持了准确性，使我们首次能够在单个GPU内执行1750亿参数的模型进行生成推断。
GPTQ还表明，即使在极端量化情况下，也可以提供合理的准确性，其中权重被量化为2位甚至三元量化级别。
该方法可以用于端到端推断加速，相对于FP16，使用高端GPU（NVIDIA A100）时约为3.25倍，使用更经济实惠的GPU（NVIDIA A6000）时为4.5倍。
GPTQ是首个表明可以将具有数百亿参数的极度准确的语言模型量化为每个组件3-4位的方法。之前的后训练方法只能在8位时保持准确，而之前的基于训练的技术只处理了比这小一个到两个数量级的模型。
GPTQ遵循最先进的后训练量化方法的结构，通过逐层进行量化，为每一层解决相应的重建问题。
该方法基于最近提出的Optimal Brain Quantization（OBQ）方法，进行了一系列重大修改，使其能够扩展到大型语言模型，提供超过三个数量级的计算加速。

更详细的信息可以在

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。