点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
黄炜
香港大学博士生
概述
BiLLM:推进大型语言模型后训练量化的极限
预训练的大型语言模型(LLMs)在语言处理方面表现出色,但对内存和计算资源的需求非常高。二值化作为一种强大的压缩技术,可以将模型权重极大地减少到仅1位,从而降低昂贵的计算和内存需求。然而,现有的量化技术在超低位宽下难以保持LLM的性能。为应对这一挑战,我们提出了BiLLM,这是一种针对预训练LLM的革命性1位后训练量化方案。基于LLM的权重分布,BiLLM首先识别并结构性地选择显著权重,通过有效的二值残差近似策略最小化压缩损失。此外,考虑到非显著权重的钟形分布,我们提出了一种优化分割搜索方法,以精确地对其进行分组和二值化。BiLLM首次在各种LLM家族和评估指标上,以仅1.08位权重实现了高精度推理(例如在LLaMA2-70B上达到8.41的困惑度),并显著超越了现有的LLM量化方法。此外,BiLLM能够在单个GPU上在0.5小时内完成对70亿参数LLM的二值化过程,展现了令人满意的时间效率。
论文地址:https://arxiv.org/abs/2402.04291
代码地址:https://github.com/Aaronhuang-778/BiLLM
AITIME
01
介绍
由香港大学、苏黎世联邦理工学院、北京航空航天大学联合推出的BiLLM,目前已被ICML 2024接收。
通俗来讲,随着LLM参数规模越来越大,模型计算的内存和资源也面临着更大的挑战。如何把模型变得小巧经济实惠,能塞进手机等设备中?
BiLLM解决的正是这样的一个问题。它使用1bit来近似网络中的大多数参数,使用2bit来表示一些对性能最有影响的权重。
实验测试中,研究人员对OPT模型、Llama系列进行了二值化。
在OPT模型家族上,BiLLM以1.1bit的平均权重大小实现了目前最极限的LLM训练后压缩;在Llama系列模型上,BiLLM在1.08bit下的表现甚至超过了使用全精度的OPT-66B模型。
效率方面,BiLLM能够在单个GPU上半小时内完成7B LLM的二值化。
AITIME
02
LLM权重分布研究
为了应对超低位宽下大语言模型的能力崩溃问题,研究人员对多个预训练大语言模型的权重和其Hessian矩阵(损失的二阶梯度)分布情况进行了初步研究,得到以下观察:
首先,研究人员发现大语言模型的Hessian矩阵表现出极端的长尾分布特性。
这也意味着大多数位置权重的变化对模型的输入输出并不敏感,而少部分元素对于权重的输出非常敏感。
其次,大语言模型中的权重密度遵循不均匀的钟形分布形式。
这种钟形分布在特征方面与高斯分布或拉普拉斯分布非常相似,即大多数权重集中在0附近,整体呈现非均匀的钟形分布。
上述观察表明大多数权重在LLM当中是冗余的,而少部分权重发挥着极其重要的作用;同时,在极端的二值化压缩场景下,这种非均匀钟形分布会产生更大的量化误差。
对此,研究人员对少部分显著权重和大部分非显著权重分别提出了二阶残差逼近和最优钟形分组方法进行量化,在1.1bit的权重下首次实现了LLM的性能保证。
AITIME
03
显著权重:二阶残差逼近
研究人员发现,显著权重往往积聚在特定的通道当中。
因此,BiLLM采用一种通道级别的分组方式来区分显著权重和非显著权重。这种结构化划分相比于非结构化处理引入的开销可以忽略不计,对硬件部署十分友好。
由于显著权重的重要性,先前工作往往直接将这部分权重保存为原精度或量化到8-bit来保证LLM的性能。然而,这种方式会导致整体位宽的增加。
为此,研究人员开发了一种用二值化残差逼近方法作用于显著通道的权重。
这一方法通过直接二值化和残差二值化有效降低了显著权重的极端量化误差。与直接保留显着权值为16位或者8位相比,该方法仅通过2位开销存储显着权值,同时有效保护了权重中的重要元素。
AITIME
04
非显著权重:最优钟形划分
由于显着通道数量极低,剩余的大部分权重仍然保持着钟形分布。
同时,在排除显着权重影响的情况下变得更加对称。由于二进制量化代表均匀量化的极端形式,直接将钟形分布下的权重舍入到二值权重会带来巨大的的量化误差。
因此研究人员对这部分权重采用了分组二值化的方式,通过自动搜索策略寻找最优的分割点。
此外,研究结果表明,尽管非显着权重并非理想的高斯分布或拉普拉斯分布,但搜索函数的误差曲线仍然表现出凸性,证实了最佳分割点的存在。
同时由于外侧分组的数值方差较大,搜索中总是以较小的比例出现(0.5%~3%)。可以进一步采用稀疏行压缩的策略来进行分组标识,进一步提升细粒度分组方案下的硬件友好性。
AITIME
05
实验结果
研究团队在OPT和Llama系列模型上验证了BiLLM性能。此外,考虑到LLM通常需要基于指令进行微调以适应不同的应用环境,实验还报告了Vicuna-7B和Vicuna-13B的量化结果。
BiLLM在平均1.1bit权重时,在多个评价指标上实现了超过GPTQ,PB-LLM等方法在2-bit时的性能,同时在部分模型体积上接近3-bit权重的性能。
结果表明, BiLLM 率先在接近1位的平均比特率下实现了LLM性能保证,推动了LLM无训练量化的边界。
BiLLM在Llama-13B和Vicuna-7B上实现了更好对话效果。
本篇文章由陈研整理
往期精彩文章推荐
记得关注我们呀!每天都有新知识!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。
我知道你
在看
提出观点,表达想法,欢迎
留言
点击 阅读原文 查看作者精彩直播回放!