24GB内存就能跑7B参数大模型？全新训练策略GaLore助你突破内存瓶颈

李孟聊人工智能

已于 2024-03-14 00:56:34 修改

阅读量678

点赞数 10

分类专栏： gpt 文章标签：人工智能 AI aigc chatgpt gpt

于 2024-03-14 00:55:47 首次发布

本文为博主（李孟）原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/qq_19968255/article/details/136579979

版权

gpt 专栏收录该内容

105 篇文章

订阅专栏

训练大型语言模型，内存总是个大问题。

权重啊、优化器状态啊，都得吃内存，而且吃得还不少。

为了省内存，有人就想出了一些招儿，比如低秩适应（LoRA），就是给预训练权重添点儿可训练的低秩矩阵，这样就能少训练点参数，优化器状态也省了。

冻结预训练模型的参数还能加速训练呢，因为只有新模型的参数在更新，其他的都保持不变。

不过啊，这些方法虽然能省内存，但效果可能没全秩权重训练那么好。

因为它们限制了参数搜索的空间，改变了训练的方式，有时候可能还需要全秩热身来启动一下。

最近有人提出了一种新的训练策略，叫梯度低秩投影（GaLore）。

这招儿能让全参数学习更省内存，效果还挺好。

在优化器状态方面，它能减少高达65.5%的内存使用量，而且性能还不打折。在LLaMA 1B和7B架构上都试过了，确实有效果。

现在你可以试试在24GB内存的GPU上预训练那个7B参数的模型了，说不定真的能跑起来哦！

而且还不需要什么模型并行、检查点或卸载策略这些复杂的操作。

这不就是我们梦寐以求的“神器”吗？

不过啊，到底哪种预训练策略最好用呢？咱们一起来聊聊这些策略的使用过程吧。

内容迁移微信公众号：李孟聊AI
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

李孟聊人工智能 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。