LISA，比LoRA还快50%的微调方法

deardao

于 2024-04-27 17:02:50 发布

阅读量194

点赞数 1

文章标签：大模型微调

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liangdaojun/article/details/138253220

版权

LoRA 非常侧重 LLM 的底层和顶层的权重。利用这一特性，LMFlow 团队提出一个极其简洁的算法：Layerwise Importance Sampled AdamW（LISA）。

论文链接：
https://arxiv.org/abs/2403.17919
开源地址：
https://github.com/OptimalScale/LMFlow

LISA 算法的核心在于：

始终更新底层 embedding 和顶层 linear head；
随机更新少数中间的 self-attention 层，比如 2-4 层。

在这里插入图片描述
实验发现该算法在指令微调任务上超过 LoRA 甚至全参数微调。LISA 每次中间只会激活一小部分参数，算法对更深的网络，以及梯度检查点技术（Gradient Checkpointing）也很友好，能够带来更大的空间节省。在指令微调任务上，LISA 的收敛性质比 LoRA 有很大提升。

LMFlow 现已集成 LISA，安装完成后只需一条指令就可以使用 LISA 进行微调。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
LISA，比LoRA还快50%的微调方法

LISA 每次中间只会激活一小部分参数，算法对更深的网络，以及梯度检查点技术（Gradient Checkpointing）也很友好，能够带来更大的空间节省。在指令微调任务上，LISA 的收敛性质比 LoRA 有很大提升。LoRA 非常侧重 LLM 的底层和顶层的权重。利用这一特性，LMFlow 团队提出一个极其简洁的算法：Layerwise Importance Sampled AdamW（LISA）。LMFlow 现已集成 LISA，安装完成后只需一条指令就可以使用 LISA 进行微调。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。