在 GPU 云上跑 LLama3

最新推荐文章于 2024-07-16 01:00:13 发布

AI大模型-王哥

最新推荐文章于 2024-07-16 01:00:13 发布

阅读量803

点赞数 26

文章标签：人工智能 AI大模型 LLM RAG 大模型微调大模型

本文链接：https://blog.csdn.net/2401_84204413/article/details/140069970

版权

LLama 3 模型已经开源了，感觉有一大波 Chinese -LLama 3 正在赶来的路上。如果你也想基于 LLama 3 训练一个自己的模型，那这篇教程就教你怎么来做。

简单聊聊 LLama3

这里给还未了解 LLama 3 的开发者们，简要地介绍一下它。如果你已经是 AI 圈的老手，那么可以跳过这个章节。

Meta 最近宣布了LLama 3，这是下一代最先进的开源大型语言模型。

LLama 3 现在拥有 8B（80亿）和 70B（700亿）参数的语言模型。该模型已在各种任务中都有不俗的表现，并提供更好的推理能力。该模型已经开源，可供商业使用，并且开发者们可以在 AI 应用、开发者工具等方面进行创新。

LLama 3 有四个版本的大型语言模型（LLM）。这些模型有两种参数规模：8B 和 70B 参数，每种都有基础（预训练）和 instruct-tuned 版本。它们可以在不同类型的消费级硬件上平稳运行，并支持 8K（8000）token 的上下文长度。

Meta-Llama-3-8b：基础 8B 模型
Meta-Llama-3-8b-instruct：基于 8B 模型的 instruct-tuned 版本
Meta-Llama-3-70b：基础 70B 模型
Meta-Llama-3-70b-instruct：基于 70B 模型的 instruct-tuned 版本

LLama 3 的增强

最新的 8B 和 70B 参数的 LLama 3 模型，相比 LLama 2 有显著进步。有一些人表示，这是为大型语言模型设定了新的标准。由于更好的预训练和微调方法，它们已成为同类模型中的顶级存在。后训练增强中错误明显减少了，并提高了模型在推理、生成代码和遵循指令方面的性能。简而言之，LLama 3 比之前的很多模型都更先进、更灵活。下图是源自 [Meta 官方的数据]

图：LLama 3 性能基准

在开发 LLama 3时，主要关注点是模型在现实生活情境中的优化。为此，他们创建了一个评估集，包含 1800 个 prompt，涵盖 12 个关键任务：寻求建议、编码和总结。此外，验证数据集也被禁止研发团队访问，以防止模型过拟合。将 LLama 3 与 Claude Sonnet、Mistral Medium 和 GPT-3.5 进行人工评估后，发现它在各种任务和场景中的结果都有不错的表现。

图：显示了人工评估在几个类别和提示下的结果

为了增强 LLama 3 的能力，Meta 专注于扩大预训练规模和完善后训练技术。

他们扩大了预训练规模，并制定了一系列详细的 scaling laws，以优化计算性能。令人惊讶的是，即使在训练了大量数据——高达 15T（万亿）个 token 之后——其性能仍呈对数线性增长。结合使用各种并行化方法和定制的 GPU 集群，与LLama 2 相比，训练效率有效提高了三倍。

对于指令微调，Meta 考虑了不同的技术，如监督微调和偏好优化。此外，详细制定了训练数据和从偏好排名中学习，这有效提高了模型的性能，特别是在推理和编码任务中。这些改进使模型能够更好地理解和响应复杂任务。

模型架构

在设计 LLama 3 时，采用标准的解码器只有变换器架构，优化了编码效率和推理效率。与LLama 2相比，采用了有 128K 个标记词汇表的分词器，能更有效地对语言进行编码。此外，为了在推理期间让 LLama 3 模型更快，还引入了不同大小的分组查询注意力（GQA）。在训练期间，使用了 8192 个 token 的序列和一种掩码技术，以保持文档边界内的注意力。

LLama 3 在超过 15T token 的公开数据集上进行了预训练——比 LLama 2 使用的数据大 7 倍，而且代码量也大了 4 倍。该模型包含超过 5% 的非英语数据，涵盖 30 种语言，以便实现支持多语言。

为了保持在高质量的数据上进行训练，Meta 还构建了一系列数据过滤管道，还使用了启发式过滤器和文本分类器等，目的就是为了提高了模型性能。

运行 LLama 3 Demo

在我们开始之前，请确保在 huggingface.co 上获得对“meta-llama/Meta-Llama-3-70B”模型的访问权限。另外，我们在这里使用的是 [Paperspace 平台上的 GPU]，如果你手上还没有合适的 GPU 和机器，可以考虑这个平台。

要使用 Llama 3，我们首先要升级 transformers 包。

#upgrade the transformer package
pip install -U "transformers==4.40.0" --upgrade

接下来，运行以下代码段。根据 Hugging Face 博客的提示，该模型通常需要大约 16GB 的 RAM，包括像 3090 或 4090 这样的 GPU。

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

pipeline = transformers.pipeline(
  "text-generation",
  model="meta-llama/Meta-Llama-3-8B-Instruct",
  model_kwargs={"torch_dtype": torch.bfloat16},
  device="cuda",
)

pipeline("Hey how are you doing today?")

如果你收到错误信息 “RuntimeError: cutlassF: no kernel found to launch!”，请尝试下面的代码，并再次运行该cell。

torch.backends.cuda.enable_mem_efficient_sdp(False)
torch.backends.cuda.enable_flash_sdp(False)

生成的文本：“Hey how are you doing today? I hope you’re having a great day so far! I just”

在这里需要注意几件事情：

在我们的示例案例中，我们使用了’bfloat16’来加载模型。最初，Meta 使用的是’bfloat16’。因此，这是一种官方推荐的运行方式，可以确保最佳精度或进行评估。当然，你也可以尝试使用 float16，根据你硬件配置的情况，这可能会更快。
你还可以自动压缩模型，将其加载为 8 位或 4 位模式。在 4 位模式下运行需要的内存更少，使其能兼容许多消费级GPU 和性能较弱的 GPU。以下是如何以4位模式加载示例代码段。

pipeline = transformers.pipeline(
    "text-generation",
    model="meta-llama/Meta-Llama-3-8B-Instruct",
    model_kwargs={
        "torch_dtype": torch.float16,
        "quantization_config": {"load_in_4bit": True},
        "low_cpu_mem_usage": True,
    },
)

LLama 3的未来

尽管当前的 8B（80亿）和 70B（700亿）参数模型给人留下了深刻印象，但 Meta 的工程师正在研究支持超过 400B（4000亿）参数的更大模型。这些模型仍在训练中。在未来几个月里，它们将更强的新功能，如多模态性、多语言对话能力、更长的上下文理解能力以及整体更强的能力。

Meta的LLama 3 最引人注目的一点就是开源。发布的基于文本的模型是LLama 3系列模型中的第一批。正如 Meta 所说，他们的主要目标是使 LLama 3 多语言和多模态，拥有更长的上下文支持，并持续改进核心大型语言模型（LLM）能力（如推理和编码）的整体性能。

我们迫不及待地想看看 GenAI 领域的下一个热点会是什么了。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

AI大模型-王哥

关注

26
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
在 GPU 云上跑 LLama3

LLama 3 模型已经开源了，感觉有一大波 Chinese -LLama 3 正在赶来的路上。如果你也想基于 LLama 3 训练一个自己的模型，那这篇教程就教你怎么来做。
复制链接

扫一扫

在 GPU 云上跑 LLama3

简单聊聊 LLama3

LLama 3 的增强

模型架构

运行 LLama 3 Demo

LLama 3的未来

“相关推荐”对你有帮助么？