在Windows电脑上快速运行AI大语言模型-Llama3

最新推荐文章于 2025-02-16 00:55:34 发布

东风微鸣

最新推荐文章于 2025-02-16 00:55:34 发布

阅读量1.9k

点赞数 12

文章标签： kubernetes 云原生

本文链接：https://blog.csdn.net/east4ming/article/details/137999807

版权

概述

近期 Meta 发布了最新的 Llama3 模型，并开源了开源代码。Meta Llama 3 现已推出 8B 和 70B 预训练和指令调整版本，可支持广泛的应用程序。

并且 Llama 3 在语言细微差别、上下文理解和翻译和对话生成等复杂任务方面表现出色。

我们可以在 Windows 上快速运行 Llama3 8B 模型。

📝Notes

郑重声明: 本文几乎没有任何原创内容, 主要资料都来自于网上, 笔者只是总结自己实际可以运行起来的详细步骤, 供各位读者参考. 另外, 笔者的水平有限, 欢迎大家提出改进意见. 目前可以快速在 Windows 上运行 AI 模型的方法还有几个, 包括不限于:

Llmafile

Chat With RTX | Nvidia

WSL2 + WASMEdge

受限于个人经验, 提供提供使用: WSL+ WASMEdge 的实战方案.

📚️参考资料

技术栈

Llama3
LlamaEdge + WASMEdge
NVIDIA 显卡驱动 + CUDA
WSL2

前提条件

Windows 10/11 系统
硬件: NVIDIA 显卡(具体型号要求不确定, 应该是可以运行 CUDA 的都可以; 我的 2060 实战没有问题)

相关概念

Llama 3

模型性能

Meta发布了新一代语言模型Llama 3，包括8B和70B参数的预训练和指令微调模型。
Llama 3在广泛的行业基准上展示了最先进的性能，并提供了新的功能，包括改进的推理能力。
Llama 3模型在标准基准上的性能优于其他同等规模的模型，并且针对真实世界场景进行了优化。

模型架构

Llama 3使用了改进的解码器-only transformer架构，并采用了分组查询注意力（GQA）来提高推理效率。
Llama 3在超过15T个标记上进行了预训练，训练数据集是Llama 2的七倍，并且包含更多代码。
Llama 3使用了各种数据过滤管道来确保训练数据的质量，包括启发式过滤器、NSFW过滤器、语义去重方法和文本分类器。
Llama 3使用了详细的缩放定律来扩展预训练，并对训练数据进行了最佳组合的选择。

指令微调

Llama 3在指令微调方面进行了创新，包括监督微调（SFT）、拒绝采样、近端策略优化（PPO）和直接策略优化（DPO）。

可用性

Llama 3 将很快在所有主要平台上提供，包括云提供商、模型 API 提供商等等。Llama 3 将无处不在。

未来计划

Llama 3 8B 和 70B 模型标志着 Meta 计划为 Llama 3 发布的内容的开始。还有更多内容即将推出。Meta 最大模型的参数超过 400B，虽然这些模型仍在训练中，但团队对它们的趋势感到兴奋。
在接下来的几个月里，Meta 将发布多个具有新功能的模型，包括多模态、使用多种语言进行对话的能力、更长的上下文窗口和更强的整体能力。一旦完成 Llama 3 的训练，Meta 还会发布详细的研究论文。