核能挑战：8GB显存本地跑Llama 405B！

最新推荐文章于 2025-03-18 04:50:13 发布

小天才学习机打游戏

最新推荐文章于 2025-03-18 04:50:13 发布

阅读量1.6k

点赞数 49

文章标签： llama 人工智能 rpa 算法 prompt chatgpt

本文链接：https://blog.csdn.net/m0_59164520/article/details/140879356

版权

今天是整活时间，我要挑战用8GB显存GPU跑Llama 3.1 405B模型！

Llama 405B模型有820GB! 是8GB显存的103****倍！

完全放不下，怎么搞呢？太难了！

4bit量化

首先，我们用4-bit量化技术，把16-bit浮点数变成4-bit，节省4倍内存。

量化之后，所有的浮点数都会被分配到4个bit，也就是16个桶之一。深度神经网络的浮点数可以表达的范围从：-3.40282347E+38 to 3.40282347E+38，这么多的浮点数，都用这16个桶之一来表达，这靠谱吗？

特别靠谱。

首先最重要的是保证这些参数的数值均匀的分布到这16个桶中。

一般情况下这是绝对做不到的。不均匀就会有很大的精度损失。

好在深度神经网络的参数一般都是服从正态分布的。因此只需要做一个简单的变换就可以保证理论上绝对的均匀分布。

当然，服从统计分布，不意味着没有一些特殊情况异常值，所谓的outlier。

比如我的存款就叫正态分布，马斯克的存款就叫outlier。

那我们只需要用一些专门的存储空间，把这些outlier异常值特殊记录下来就好了。这就是所谓的outlier-dependent量化。

经过大量的实验验证，4bit量化对于大语言模型的精度几乎没有任何损失。（甚至有的情况下精度更高了！）

经过了一轮丧心病狂的4bit量化，LLama 405B的模型大小已经缩小到了230GB，距离加载到我的8GB显卡已经**《不远了》**。

分层推理

达成挑战第二个魔法是分层推理。

其实transformer的结果推理过程只需要一层一层的加载模型就可以。不需要整体将模型全部加载到内存。

Llama 405B的模型在层数上只增加了50%，到126层。

但是向量维数增加了一倍，多头注意力头数也增加了一倍，因此每层的参数量大概来到了原来的4倍。

逐层加载并推理，最多的显存占用大概只需要5GB。

挑战达成！

开源项目AirLLM

和某些大佬的看法不太一样，我的观察是，AI行业各个大模型的差距在快速接近。用什么模型差异已经不大。

越来越多的公司会愿意采用开源模型，并且自己部署大模型，保证可以根据业务需要灵活的调整配置。

本人也是开源坚定的拥护者，相信AI的未来一定也是属于开源的。

这个方法已经也更新到我的开源项目AirLLM， (https://github.com/lyogavin/airllm)。大家都可以使用。

pip安装：

pip install airllm

然后只需要几行代码：

from airllm import AutoModel``   ``model = AutoModel.from_pretrained（`    `"unsloth/Meta-Llama-3.1-405B-Instruct-bnb-4bit")`    `   ``input_text = ['What is the capital of United States?',]``   ``input_tokens = model.tokenizer(input_text,`      `return_tensors="pt",``       return_attention_mask=False,  ``truncation=True,`       `max_length=128,`       `padding=False)`      `   ``generation_output = model.generate(`      `input_tokens['input_ids'].cuda(),``      max_new_tokens=10,`      `return_dict_in_generate=True)``   ``output = model.tokenizer.decode(generation_output.sequences[0])``   ``print(output)

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述