《Extreme Compression of Large Language Models via Additive Quantization》
Q: 这篇论文试图解决什么问题?
A: 这篇论文旨在解决大型语言模型(LLMs)在压缩到极低比特数(例如2到3位每参数)时的准确性问题。具体来说,论文提出了一种名为Additive Quantization for Language Models (AQLM) 的方法,它基于经典多码本量化(Multi-Codebook Quantization, MCQ)中的加性量化(Additive Quantization, AQ)算法,并针对语言模型的量化进行了适应性改进。
论文的主要贡献包括:
-
提出了一种实用的AQ方法,用于大型语言模型的后训练量化(post-training quantization)。
-
在Llama 2模型系列上评估了该算法的有效性,压缩比率为2-4位每参数。实验结果表明,AQLM在2-4位压缩范围内超越了先前最先进的算法,特别是在极端的2位量化情况下表现显著。
<