在Windows电脑上快速运行AI大语言模型-Llama3

概述

近期 Meta 发布了最新的 Llama3 模型,并开源了开源代码。Meta Llama 3 现已推出 8B 和 70B 预训练和指令调整版本,可支持广泛的应用程序。

并且 Llama 3 在语言细微差别、上下文理解和翻译和对话生成等复杂任务方面表现出色。

我们可以在 Windows 上快速运行 Llama3 8B 模型。

📝Notes

郑重声明: 本文几乎没有任何原创内容, 主要资料都来自于网上, 笔者只是总结自己实际可以运行起来的详细步骤, 供各位读者参考. 另外, 笔者的水平有限, 欢迎大家提出改进意见. 目前可以快速在 Windows 上运行 AI 模型的方法还有几个, 包括不限于:

受限于个人经验, 提供提供使用: WSL+ WASMEdge 的实战方案.

📚️参考资料

技术栈

  1. Llama3
  2. LlamaEdge + WASMEdge
  3. NVIDIA 显卡驱动 + CUDA
  4. WSL2

前提条件

  1. Windows 10/11 系统
  2. 硬件: NVIDIA 显卡(具体型号要求不确定, 应该是可以运行 CUDA 的都可以; 我的 2060 实战没有问题)

相关概念

Llama 3

模型性能

  • Meta发布了新一代语言模型Llama 3,包括8B和70B参数的预训练和指令微调模型。
  • Llama 3在广泛的行业基准上展示了最先进的性能,并提供了新的功能,包括改进的推理能力。
  • Llama 3模型在标准基准上的性能优于其他同等规模的模型,并且针对真实世界场景进行了优化。

模型架构

  • Llama 3使用了改进的解码器-only transformer架构,并采用了分组查询注意力(GQA)来提高推理效率。
  • Llama 3在超过15T个标记上进行了预训练,训练数据集是Llama 2的七倍,并且包含更多代码。
  • Llama 3使用了各种数据过滤管道来确保训练数据的质量,包括启发式过滤器、NSFW过滤器、语义去重方法和文本分类器。
  • Llama 3使用了详细的缩放定律来扩展预训练,并对训练数据进行了最佳组合的选择。

指令微调

  • Llama 3在指令微调方面进行了创新,包括监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO)。

可用性

  • Llama 3 将很快在所有主要平台上提供,包括云提供商、模型 API 提供商等等。Llama 3 将无处不在。

未来计划

  • Llama 3 8B 和 70B 模型标志着 Meta 计划为 Llama 3 发布的内容的开始。还有更多内容即将推出。Meta 最大模型的参数超过 400B,虽然这些模型仍在训练中,但团队对它们的趋势感到兴奋。

  • 在接下来的几个月里,Meta 将发布多个具有新功能的模型,包括多模态、使用多种语言进行对话的能力、更长的上下文窗口和更强的整体能力。一旦完成 Llama 3 的训练,Meta 还会发布详细的研究论文。

LlamaEdge

  • LlamaEdge 项目可以轻松地在本地运行 LLM 推理应用程序并创建适用于 Llama2-3 系列 LLM 的 OpenAI 兼容 API 服务。

  • LlamaEdge 使用 Rust+Wasm 栈,提供了比 Python 更强大的 AI 推理替代方案。

  • LlamaEdge 支持所有基于 llama2-3 框架的大语言模型 (LLM),模型文件必须采用 GGUF 格式。

  • 编译后的 Wasm 文件是跨平台的,可以在不同的操作系统、CPU 和 GPU 上运行相同的 Wasm 文件。

  • LlamaEdge 提供了详细的故

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值