探索极致压缩:PB-LLM——部分二值化大型语言模型
PB-LLMPB-LLM: Partially Binarized Large Language Models项目地址:https://gitcode.com/gh_mirrors/pb/PB-LLM
项目介绍
PB-LLM(Partially Binarized Large Language Models)是一项前沿的研究工作,旨在探索网络二值化技术,这是一种极端的量化方法,能够将模型权重压缩至单个比特。PB-LLM项目由Yuzhang Shang、Zhihang Yuan、Qiang Wu和Zhen Dong共同开发,通过提出一种新颖的部分二值化方法,成功解决了传统二值化方法在大型语言模型(LLMs)中性能崩溃的问题。
项目技术分析
PB-LLM的核心创新在于其部分二值化策略,该策略通过筛选出少量关键权重(salient weights)并为其分配更高比特的存储空间,从而在保持低比特量化的同时,维持了量化后LLMs的语言推理能力。项目从后训练量化(PTQ)和量化感知训练(QAT)两个角度进行了深入分析,并开发了相应的技术实现。
在PTQ方面,PB-LLM结合了GPTQ的概念,通过Hessian矩阵引导重建二值化权重矩阵,成功恢复了低比特下PB-LLM的推理能力。在QAT方面,项目冻结了关键权重并在训练过程中探索了最优缩放因子的推导,提出了一种基于推导策略的缩放机制,用于残余二值化权重,从而显著提升了低比特量化LLMs的性能。
项目及技术应用场景
PB-LLM的技术适用于需要高度压缩但又不牺牲性能的场景,特别是在资源受限的环境中,如移动设备、嵌入式系统或边缘计算节点。此外,PB-LLM也适用于对模型大小有严格要求的云服务和数据中心,能够在减少存储和计算需求的同时,保持高质量的语言处理能力。
项目特点
- 创新性:PB-LLM是首个成功实现部分二值化并保持LLMs推理能力的方法。
- 高效性:通过部分二值化策略,PB-LLM在极低比特下仍能保持高性能。
- 灵活性:支持多种量化方法和模型,如Huggingface的OPT和Llama系列模型。
- 易用性:提供了详细的安装和使用指南,便于开发者快速上手。
PB-LLM不仅在技术上取得了显著的进步,也为未来的LLMs压缩和优化提供了新的思路和方法。对于希望在保持模型性能的同时大幅减少模型大小的开发者和研究人员来说,PB-LLM无疑是一个值得关注和尝试的开源项目。
PB-LLMPB-LLM: Partially Binarized Large Language Models项目地址:https://gitcode.com/gh_mirrors/pb/PB-LLM