Ollama +Mixtral + ChatBox 搭建本地团队使用的大语言模型

本文介绍了如何利用Ollama、Mixtral-87B中文模型和ChatBox在本地搭建大语言模型服务。详细步骤包括环境准备、模型下载、Ollama和ChatBox的安装与配置,以及通过Flask代理解决远程连接问题,最终实现高效且资源友好的团队协作工具。
摘要由CSDN通过智能技术生成

关于Ollama和Mixtral-8*7B以及ChatBox

  1. Ollama是一个 开源的本地大语言模型运行平台,通过类似Docker的CLI界面可以快速的在本地进行大语言模型的推理部署。
  2. Mixtra-87B模型是法国明星初创团队 Mistral 最新推出的首个开源混合专家 MoE 模型。我在Git上找到了ymcui大神基于Mixtra-87B 0.1版本精调的中文混合专家模型。中文Mixtral混合专家模型
  3. ChatBox是个接入多个主流大语言模型的APP,1.30版本对Ollama本地服务的适配很不错,推荐。Chatbox下载链接

环境准备

我们的部署环境如下:

  1. 硬件环境
    1. AMD 5950X
    2. 128GB RAM
    3. RTX 3090(24G VRAM)
  2. 操作系统
    1. Win 10 19045.4170

Ollama安装

  1. Ollama Windows Preview页面 下载Ollama服务端应用:Ollama Windows Preview
  2. 安装后,操作系统会自动启动ollama服务,并在11434端口监听。
  3. 在命令行或者PowerShell中测试以下命令,ollama会自动下载llama2中文版本的4-bit 量化模型文件,需要至少 8GB 的内存进行推理。
ollama pull llama2-chinese

使用pull命令下载llama2-chinese模型文件然后使用run命令运行llama2-chinese模型:

ollama run llama2-chinese '如何使用httpd配置反向代理?'

ollama会很快推理并反馈如下结果:
在这里插入图片描述这说明Ollama服务已经成功部署在我们的本地服务器上了🥳

ChatBox安装

ChatBox是标准的Windows Installer安装,可以轻松搞定。

下载Mixtral-Chinese的量化模型文件:

Mixtral-Chinese的量化模型下载地址
作者很贴心,批量把各不同精度的量化文件都上传到HuggingFace了,我们选用ggml-model-q4_k.gguf这个模型文件,然后慢慢下载了。
在这里插入图片描述

使用Ollama加载本地的GGUF模型文件

  1. 创建模型配置文件:

创建一个包含以下内容的模型配置文件,比如: mixtral-chinese.mf 这个文件名,文件内容如下:

FROM F:\GitRepos\models\hfl\chinese-mixtral-instruct\ggml-model-q4_k.gguf.gguf

注意,模型的路径需要明确指定

这里的FROM参数用于指定需要加载的具体模型文件。

  1. 构建对应的Ollama模型
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值