如何在 4 GB 显卡上运行 LLAMA3 70B？

最新推荐文章于 2024-07-31 13:50:16 发布

小马不会过河

最新推荐文章于 2024-07-31 13:50:16 发布

阅读量559

点赞数 4

文章标签：人工智能金融 AI AI大模型 AIGC

本文链接：https://blog.csdn.net/m0_59163425/article/details/139452670

版权

引言

最强大的开源大型语言模型 LLaMA 3 已经发布，一些关注者问 AirLLM 是否可以在仅有 4 GB 显存的情况下在本地运行 700 亿参数的 LLaMA 3。答案是肯定的。接下来让我们看看如何做到这一点。

此外，LLaMA 3 的性能如何与 GPT-4 相比? LLaMA 3 使用了哪些尖端技术从而变得如此强大? LLaMA 3 的突破是否意味着开源模型正式开始超越闭源模型?今天我们也会就此发表解读。

如何在单个 4 GB 显存 GPU 上运行 LLaMA 3 70B

LLaMA 3 的模型架构并未改变，因此 AirLLM 实际上已经可以自然而然完美运行 LLaMA 3 70B 了！甚至可以在 MacBook 上运行。

首先，安装 AirLLM：

pip install airllm

然后只需几行代码:

from airllm import AutoModel``MAX_LENGTH = 128``model = AutoModel.from_pretrained("v2ray/Llama-3-70B")` `input_text = [`  `'美国的首都是哪里?'``]``input_tokens = model.tokenizer(input_text,`  `return_tensors="pt",`  `return_attention_mask=False,`  `truncation=True,``  max_length=MAX_LENGTH,`  `padding=False)``   ``   ``generation_output = model.generate(`  `input_tokens['input_ids'].cuda(),`  `max_new_tokens=20,`  `use_cache=True,`  `return_dict_in_generate=True)``   ``   ``output = model.tokenizer.decode(generation_output.sequences[0])``print(output)

更多细节请查看我们的 GitHub 仓库（https://github.com/lyogavin/Anima/tree/main/air_llm）。

请注意：它不是为实时交互场景如聊天而设计的，更适合数据处理和其他离线异步场景。

与 GPT-4 相比性能如何?

根据官方评估数据和最新的 lmsys 排行榜，LLaMA 3 70B 非常接近 GPT4 和 Claude3 Opus。

官方评估结果:

撰写本文时的 lmsys 排行榜结果:

当然，将 400 亿参数的模型与 GPT-4 和 Claude3 Opus 进行比较会更加合理:

LLaMA 3 400B 已经非常接近 GPT-4 和 Claude3 最强版本，而且仍在继续训练。

Llama3的核心改进是什么?

LLaMA 3 的架构没有变化，主要是在训练方法上有一些技术改进，比如基于 DPO 的模型对齐训练。

DPO 基本上已经成为所有排名靠前的大型模型在各个排行榜上的标准训练方法——它简单有效！我们之前写过详细介绍 DPO 的文章，所有代码都在这里（https://github.com/lyogavin/Anima/tree/main/rlhf）开源。

当然，LLaMA 3 的主要秘诀在于其训练数据的大幅增加和质量提高。从LLaMA 2 的 2T 增加到了 15T！人工智能归根结底就是数据!

数据的改进不仅在于数量，还有质量。Meta 做了大量的数据质量过滤、去重等工作，其中很多是基于使用 LLaMA 2 等大型模型来过滤和选择数据。

请注意：这 15T 是经过严格过滤和清理后的数据。过滤前可能超过 100T。

训练人工智能模型的核心是数据。要训练出好的人工智能模型，并不在于拥有很多花哨的训练技术，而在于扎扎实实、一丝不苟地完成基础工作。尤其是那些不太耀眼、肮脏、单调乏味的数据质量工作，这实际上至关重要。

我一直评价 Meta 人工智能的能力很高。从早期的基于 Transformer 的判别式人工智能开始，Meta 人工智能就以其坚实的数据处理基础而闻名，制造出许多长期占据技术领先地位的经典模型，比如 Roberta 和 Roberta XLM，这些都是我们长期使用的基准模型。

LLaMA 3 的成功是否预示着开源模型的崛起??

开源与闭源之争可能还远未结束，前面还有很多戏码。

无论开源与否，训练大型模型已经变成一场烧钱的游戏。那 15T 的数据和 400 亿参数的模型，并非小玩家可以承受。我估计未来 6 个月内，许多从事大型模型的小公司将会消失。

在这场烧钱比拼中，真正的决胜点在于长期内将投资货币化的能力和效率。事实上，直至今日，人工智能大型语言模型依然很少有真正的货币化应用。很难说谁能够持续投资，以及如何持续。

从纯技术角度来看，我们一直认为开放的文化对于人工智能至关重要。近年来人工智能的飞速发展离不开人工智能界开放共享的文化。即便是在一家公司内部，能否保持开放共享的环境，持续进行透明开放的思想交流，也是该公司人工智能发展的关键。一家对外界封闭的公司，内部通常也缺乏开放透明，这迟早会阻碍其人工智能技术的快速发展，也难以真正建立一流的团队。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

小马不会过河

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
如何在 4 GB 显卡上运行 LLAMA3 70B？

最强大的开源大型语言模型 LLaMA 3 已经发布，一些关注者问 AirLLM 是否可以在仅有 4 GB 显存的情况下在本地运行 700 亿参数的 LLaMA 3。答案是肯定的。接下来让我们看看如何做到这一点。此外，LLaMA 3 的性能如何与 GPT-4 相比?LLaMA 3 使用了哪些尖端技术从而变得如此强大?LLaMA 3 的突破是否意味着开源模型正式开始超越闭源模型?今天我们也会就此发表解读。
复制链接

扫一扫