概述
近期 Meta 发布了最新的 Llama3 模型,并开源了开源代码。Meta Llama 3 现已推出 8B 和 70B 预训练和指令调整版本,可支持广泛的应用程序。
并且 Llama 3 在语言细微差别、上下文理解和翻译和对话生成等复杂任务方面表现出色。
我们可以在 Windows 上快速运行 Llama3 8B 模型。
📝Notes
郑重声明: 本文几乎没有任何原创内容, 主要资料都来自于网上, 笔者只是总结自己实际可以运行起来的详细步骤, 供各位读者参考. 另外, 笔者的水平有限, 欢迎大家提出改进意见. 目前可以快速在 Windows 上运行 AI 模型的方法还有几个, 包括不限于:
- Llmafile
- Chat With RTX | Nvidia
- WSL2 + WASMEdge
受限于个人经验, 提供提供使用: WSL+ WASMEdge 的实战方案.
📚️参考资料
- Llama3
- 有人说开源模型会越来越落后,来试试 Llama 3 吧 | LlamaEdge | Second State
- How to install Linux on Windows with WSL
- CUDA on WSL User Guide
技术栈
- Llama3
- LlamaEdge + WASMEdge
- NVIDIA 显卡驱动 + CUDA
- WSL2
前提条件
- Windows 10/11 系统
- 硬件: NVIDIA 显卡(具体型号要求不确定, 应该是可以运行 CUDA 的都可以; 我的 2060 实战没有问题)
相关概念
Llama 3
模型性能
- Meta发布了新一代语言模型Llama 3,包括8B和70B参数的预训练和指令微调模型。
- Llama 3在广泛的行业基准上展示了最先进的性能,并提供了新的功能,包括改进的推理能力。
- Llama 3模型在标准基准上的性能优于其他同等规模的模型,并且针对真实世界场景进行了优化。
模型架构
- Llama 3使用了改进的解码器-only transformer架构,并采用了分组查询注意力(GQA)来提高推理效率。
- Llama 3在超过15T个标记上进行了预训练,训练数据集是Llama 2的七倍,并且包含更多代码。
- Llama 3使用了各种数据过滤管道来确保训练数据的质量,包括启发式过滤器、NSFW过滤器、语义去重方法和文本分类器。
- Llama 3使用了详细的缩放定律来扩展预训练,并对训练数据进行了最佳组合的选择。
指令微调
- Llama 3在指令微调方面进行了创新,包括监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO)。
可用性
- Llama 3 将很快在所有主要平台上提供,包括云提供商、模型 API 提供商等等。Llama 3 将无处不在。
未来计划
Llama 3 8B 和 70B 模型标志着 Meta 计划为 Llama 3 发布的内容的开始。还有更多内容即将推出。Meta 最大模型的参数超过 400B,虽然这些模型仍在训练中,但团队对它们的趋势感到兴奋。
在接下来的几个月里,Meta 将发布多个具有新功能的模型,包括多模态、使用多种语言进行对话的能力、更长的上下文窗口和更强的整体能力。一旦完成 Llama 3 的训练,Meta 还会发布详细的研究论文。
LlamaEdge
LlamaEdge 项目可以轻松地在本地运行 LLM 推理应用程序并创建适用于 Llama2-3 系列 LLM 的 OpenAI 兼容 API 服务。
LlamaEdge 使用 Rust+Wasm 栈,提供了比 Python 更强大的 AI 推理替代方案。
LlamaEdge 支持所有基于 llama2-3 框架的大语言模型 (LLM),模型文件必须采用 GGUF 格式。
编译后的 Wasm 文件是跨平台的,可以在不同的操作系统、CPU 和 GPU 上运行相同的 Wasm 文件。
LlamaEdge 提供了详细的故