本质上,Mixtral 8x7B 是专家混合 (MoE)模型。它利用一系列较小、快速的 7B 模型代替单个大型模型,确保处理速度和效率。Mixtral 的路由器网络在每一层有选择地为每个令牌聘请两名专家,允许访问 47B 参数,同时在推理过程中积极利用 13B 参数。这种方法与 32k 令牌上下文大小相结合,优化了性能和效率。
仅 16GB 运行怎么样?显然,我们将使用llama.cpp但有一个警告:)我们不能像这样运行它,我们需要对其进行量化(压缩参数精度)。这就是一种解决方案的亮点——QuIP。这是 2bit 的新 SOTA 方法!!!量化,它允许如此疯狂的压缩,而质量损失相对较小。
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make
现在在此处下载模型本身
https://huggingface.co/ikawrakow/various-2bit-sota-gguf/tree/main
您可以找到使用此方法量化的其他模型,例如 LLAMA-2–70b 或 Mistral-7b。
将其放入 ./llama.cpp/models 文件夹中,然后就可以运行了:
./main -m ./models/mixtral-instruct-8x7b-2