LLM quantization
文章平均质量分 62
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Extreme Compression of Large Language Models via Additive Quantization
准确的开放大型语言模型 (LLM) 的出现导致了对高性能量化技术的竞争,这些技术可以在最终用户设备上执行它们。在本文中,我们从多码簿量化 (MCQ) 中经典方法的角度重新审视了“极端”LLM 压缩问题,定义为针对极低的位数,例如每个参数 2 到 3 位。我们的算法称为 AQLM,它推广了用于信息检索的经典加法量化 (AQ) 方法,通过两项创新来推进 LLM 压缩的最新技术:1) 以输入自适应方式学习权重矩阵的加法量化,以及 2) 每个transformer模块的码本参数的联合优化。原创 2024-09-14 14:31:53 · 64 阅读 · 0 评论 -
OneBit: Towards Extremely Low-bit Large Language Models
模型量化使用低位宽值来表示要量化的现有模型的权重矩阵,这是一种很有前途的方法,可以减少部署备受期待的LLM的存储和计算开销。然而,当前的量化方法在比特宽度被极大地减小时遭受严重的性能退化,并且因此专注于利用4比特或8比特的值来量化模型。本文大胆地将LLM的权重矩阵量化为1位,为LLM的极低位宽部署铺平了道路。为此,我们引入了一个名为OneBit的1位模型压缩框架,包括一种新的1位参数表示方法来更好地量化LLM,以及一种基于矩阵分解的有效参数初始化方法来提高量化框架的收敛速度。原创 2024-07-10 15:20:40 · 102 阅读 · 0 评论 -
What Makes Quantization for Large Language Models Hard?
量化已经成为一种很有前途的技术,可以提高大型语言模型(LLM)的内存和计算效率。尽管性能和效率之间的权衡是众所周知的,但关于量化和LLM性能之间的关系仍有很多需要了解的地方。为了阐明这种关系,我们提出了一个关于量化的新视角,将其视为添加到LLM的权重和激活中的扰动。我们称这种方法为“微扰透镜”。使用这个透镜,我们对各种人工扰动进行了实验,以探索它们对LLM性能的影响。我们的研究结果揭示了扰动性质和LLM性能之间的几种联系,为均匀量化的失败案例提供了见解,并提出了提高LLM量化稳健性的潜在解决方案。原创 2024-07-04 19:14:57 · 144 阅读 · 0 评论 -
IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact
大型语言模型(LLM)擅长于自然语言处理,但需要密集的计算。为了缓解这种情况,已经探索了各种量化方法,但它们会影响LLM的性能。本文揭示了LLM中一种以前被忽视的异常值类型。发现这种异常值将大部分注意力分数分配在输入的初始标记上,称为枢轴标记,这对量化LLM的性能至关重要。鉴于此,我们建议IntactKV从全精度模型中无损地生成枢轴token的KV缓存。该方法简单且易于与现有的量化解决方案相结合。此外,INTACTKV可以被校准为额外的LLM参数,以进一步提升量化的LLM。原创 2024-05-20 14:32:01 · 65 阅读 · 0 评论 -
A Comprehensive Evaluation of Quantization Strategies for Large Language Models
增加大型语言模型(LLM)中的参数数量通常会提高下游任务的性能,但会增加计算和内存成本,使部署在资源有限的环境中变得困难。由于LLM的兴起,量化技术已经变得流行起来,该技术以最小的性能损失来减少模型权重或激活所需的比特。然而,大多数量化研究使用预训练的LLM,量化对指令调整LLM的影响以及量化LLM的困惑与基准性能之间的关系还没有得到很好的理解。量化LLM的评估通常仅限于语言建模和一些分类任务,使其在其他基准上的性能不明确。原创 2024-03-15 11:04:53 · 211 阅读 · 0 评论 -
Evaluating Quantized Large Language Models
训练后量化(PTQ)已成为一种很有前途的降低大型语言模型(LLM)成本的技术。具体来说,PTQ可以有效地减少LLM中的内存消耗和计算开销。为了满足不同场景下的高效率和性能要求,对量化LLM进行全面评估对于指导量化方法的选择至关重要。原创 2024-03-08 16:23:50 · 83 阅读 · 0 评论
分享