Ollama +Mixtral + ChatBox 搭建本地团队使用的大语言模型
关于Ollama和Mixtral-8*7B以及ChatBox
- Ollama是一个 开源的本地大语言模型运行平台,通过类似Docker的CLI界面可以快速的在本地进行大语言模型的推理部署。
- Mixtra-87B模型是法国明星初创团队 Mistral 最新推出的首个开源混合专家 MoE 模型。我在Git上找到了ymcui大神基于Mixtra-87B 0.1版本精调的中文混合专家模型。中文Mixtral混合专家模型
- ChatBox是个接入多个主流大语言模型的APP,1.30版本对Ollama本地服务的适配很不错,推荐。Chatbox下载链接
环境准备
我们的部署环境如下:
- 硬件环境
- AMD 5950X
- 128GB RAM
- RTX 3090(24G VRAM)
- 操作系统
- Win 10 19045.4170
Ollama安装
- 到 Ollama Windows Preview页面 下载Ollama服务端应用:
- 安装后,操作系统会自动启动ollama服务,并在11434端口监听。
- 在命令行或者PowerShell中测试以下命令,ollama会自动下载llama2中文版本的4-bit 量化模型文件,需要至少 8GB 的内存进行推理。
ollama pull llama2-chinese
然后使用run命令运行llama2-chinese模型:
ollama run llama2-chinese '如何使用httpd配置反向代理?'
ollama会很快推理并反馈如下结果:
这说明Ollama服务已经成功部署在我们的本地服务器上了🥳
ChatBox安装
ChatBox是标准的Windows Installer安装,可以轻松搞定。
下载Mixtral-Chinese的量化模型文件:
Mixtral-Chinese的量化模型下载地址
作者很贴心,批量把各不同精度的量化文件都上传到HuggingFace了,我们选用ggml-model-q4_k.gguf这个模型文件,然后慢慢下载了。
使用Ollama加载本地的GGUF模型文件
- 创建模型配置文件:
创建一个包含以下内容的模型配置文件,比如: mixtral-chinese.mf 这个文件名,文件内容如下:
FROM F:\GitRepos\models\hfl\chinese-mixtral-instruct\ggml-model-q4_k.gguf.gguf
注意,模型的路径需要明确指定
这里的FROM参数用于指定需要加载的具体模型文件。
- 构建对应的Ollama模型