本文是LLM系列文章,针对《PRoLoRA: Partial Rotation Empowers More Parameter-Efficient LoRA》的翻译。
摘要
随着大型语言模型(LLM)的快速扩展,同时服务于众多低秩自适应(LoRA)变得越来越不切实际,导致成本过高,需要更具参数效率的微调方法。在这项工作中,我们引入了部分旋转增强的低秩自适应(PRoLoRA),这是一种层内共享机制,包括四个基本组成部分:广播减少、旋转增强、部分共享细化和纠正初始化策略。作为LoRA的超集,PRoLoRA保留了其优点,并有效地规避了对等参数共享方法的缺点,具有卓越的模型容量、实用可行性和广泛的适用性。实证实验表明,在特定的参数预算和性能目标场景中,PRoLoRA的参数效率显著提高,并且可以扩展到更大的LLM。值得注意的是,在可训练参数减少一倍的情况下,PRoLoRA在多指令调优数据集上仍然优于LoRA。随后,进行了一项消融研究,以验证单个成分的必要性,并强调PRoLoRA优于三种潜在变体。希望显著更高的参数效率可以将PRoLoRA确立为LoRA的资源友好型替代品。
1 引言
2 相关工作
3 方法
4 实验
5 结论
针对多LoRA场景中更轻量级的服务,我们引入了PRoLoRA,这是一种更有效的方法,具有由广播减少、旋转增强、部分共享细化和纠正初始化策略组成的层内共享机制。根据经验,