玩转AI，笔记本电脑安装属于自己的Llama 3 8B大模型和对话客户端

最新推荐文章于 2025-04-01 10:15:07 发布

老牛同学

最新推荐文章于 2025-04-01 10:15:07 发布

阅读量2.8k

点赞数 17

分类专栏： AI 专业技术 Python 文章标签：人工智能 llama python ai

转载请注明原文链接：https://ntopic.cn

本文链接：https://blog.csdn.net/obullxl/article/details/138755287

版权

2024 年 4 月 18 日，Meta开源了 Llama 3 大模型，把 AI 的门槛降低到了最低，这是人工智能领域的一个重要飞跃。我们个人也可以部署大模型了，这简直就是给个人开发者发了个大红包！Llama 3 模型有不同的参数版本，本文主要分享我在个人笔记本电脑是部署 8B 参数过程和编写客户端，让我们大家都参与进来，推动 AI 应用更上一层楼……

本文Llama 3 8B客户端源代码地址：https://gitee.com/obullxl/PythonCS/tree/master/Llama-3-8B

选择 Llama 3 模型版本（8B，80 亿参数）

特别注意： Meta 虽然开源了 Llama 3 大模型，但是每个版本都有 Meta 的许可协议，建议大家在接受使用这些模型所需的条款之前仔细阅读。

Llama 3 模型版本有几个，我们主要关注 80 亿参数（Llama 3 8B）和 700 亿参数（Llama 3 70B）这两个版本。它们对电脑系统配置有不同的要求，主要计算资源（即：CPU/GPU）和内存来存储和处理模型权重：

Llama 3 8B 版本：对于 80 亿参数的模型，建议至少 4 核 CPU，至少 16GB 内存（推荐 32GB 或更高），以确保模型加载和运行过程中的流畅性；模型文件大小 5 GB 左右，磁盘空间有 10GB 足够了；GPU 是可选的，它可以显著提高推理速度
Llama 3 70B 版本：对于 700 亿参数的模型，CPU 要求显著提高（建议 16 核以上），至少需要 64GB 内存（推荐 128GB 或更高），模型在推理时会占用大量的内存资源；模型文件超过 20GB，远超 8B 版本；强烈推荐使用高端 GPU，以实现有效加速

综上所述，8B 版本比较适合我们个人电脑，硬件配置基本能符合，同时模型又不失推理效果：

笔记本电脑配置

下载 Llama 3 8B 模型文件

我们第一步是想自己部署尝鲜，因此直接下载压缩后的模型权重，文件为GGUF格式，GGUF格式是为了快速推理和优化内存使用而设计的，相比以前的GGML格式，GGUF支持更复杂的令牌化过程和特殊令牌处理，能更好地应对多样化的语言模型需求。就是因为有GGUF格式，Llama 3大语言模型才可以在笔记本电脑上运行，同时GGUF就一个文件，也简化了模型交换和部署的过程，它对促进模型的普及和应用有着积极作用。

因为Hugging Face官网正常无法访问，需要科学上网，因此推荐国内镜像进行下载：

官网地址：https://huggingface.co/QuantFactory/Meta-Llama-3-8B-Instruct-GGUF/tree/main

国内镜像：https://hf-mirror.com/QuantFactory/Meta-Llama-3-8B-Instruct-GGUF/tree/main

GGUF模型文件列表

GGUF 模型文件名称接受，如上述列表中，有Meta-Llama-3-8B-Instruct.Q4_K_M.gguf和Meta-Llama-3-8B-Instruct.Q5_K_M.gguf等：

Instruct代表本模型是对基线模型进行了微调，用于更好地理解和生成遵循指令（instruction-following）的文本，以提供符合要求的响应
Q4/Q5 等代表模型权重的量化位数（其中Q是Quantization的缩小，即量化），是一种模型压缩技术，用于减少模型大小，同时降低对计算资源的需求（特别是内存），但又尽量保持模型的性能；数字4或5则代表量化精度的位数（Q4 是 4 位，Q5 是 5 位等），精度越高模型体积和内存使用也会越大，但仍然远小于未量化的基线模型
K_M/K_S代表含义笔者还未明确，K可能是

最低0.47元/天解锁文章