Macbook在 M1或M2 芯片 16GB 上运行 Mixtral 8x7b(教程含代码)

本文介绍了如何在拥有 16GB 内存的 Macbook(M1 或 M2 芯片)上运行 Mixtral 8x7b 模型,通过使用 QuIP 2bit 量化技术压缩参数,以适应有限的内存资源。虽然运行速度较慢,但能够在 CPU 上成功运行,并提供了一个使用 llama.cpp 的示例命令,对于大于 20GB RAM 的设备,还可以利用 Metal GPU 加速。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本质上,Mixtral 8x7B 是专家混合 (MoE)模型。它利用一系列较小、快速的 7B 模型代替单个大型模型,确保处理速度和效率。Mixtral 的路由器网络在每一层有选择地为每个令牌聘请两名专家,允许访问 47B 参数,同时在推理过程中积极利用 13B 参数。这种方法与 32k 令牌上下文大小相结合,优化了性能和效率。

仅 16GB 运行怎么样?显然,我们将使用llama.cpp但有一个警告:)我们不能像这样运行它,我们需要对其进行量化(压缩参数精度)。这就是一种解决方案的亮点——QuIP。这是 2bit 的新 SOTA 方法!!!量化,它允许如此疯狂的压缩,而质量损失相对较小。

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make

现在在此处下载模型本身

https://huggingface.co/ikawrakow/various-2bit-sota-gguf/tree/main

您可以找到使用此方法量化的其他模型,例如 LLAMA-2–70b 或 Mistral-7b。

将其放入 ./llama.cpp/models 文件夹中,然后就可以运行了:

./main -m ./models/mixtral-instruct-8x7b-2
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

知识大胖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值