本地虚拟机Centos7使用Ollama运行llama3中文模型和OpenWebUI访问

1.部署环境

我是在win10上装的centos7,打算把ollama和大模型调用工具放在一起。

2.准备

参考网上资料,把centos7自带的python2升级到python3

sudo yum install epel-release
sudo yum install python3
sudo yum install python3-devel
sudo yum install python3-pip
python3 --version

3.部署步骤

3.1 安装Ollama

安装Ollama很简单,参考官方文档就可以

curl -fsSL https://ollama.com/install.sh | sh

3.2 ollama下载llama3中文模型

ollama library中搜索llama3找下载最多的中文版,我这里选择了8b q4的,因为虚拟机硬盘空间不够,有条件的可以选择q8或者fp16的。大概4.7G,耐心等待下载完成即可。

ollama run wangshenzhi/llama3-8b-chinese-chat-ollama-q4
ollama run wangshenzhi/llama3-8b-chinese-chat-ollama-q8
ollama run wangshenzhi/llama3-8b-chinese-chat-ollama-fp16

量化是一种模型压缩技术,通过减少表示权重和激活的位数来减少模型的大小和推理时的计算量。q4表示模型被量化到 4 位,意味着模型大小会显著减少,但会牺牲一些精度。q4大概4.7G,q8大概8.5G,fp16大概16G。

下载完后,可以在虚拟机上测试下:

curl http://127.0.0.1:11434/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "wangshenzhi/llama3-8b-chinese-chat-ollama-q4",
        "messages": [
            {
                "role": "system",
                "content": "You are a helpful assistant."
            },
            {
                "role": "user",
                "content": "你是谁?"
            }
        ]
    }'

{"id":"chatcmpl-236","object":"chat.completion","created":1718795027,"model":"wangshenzhi/llama3-8b-chinese-chat-ollama-q4","system_fingerprint":"fp_ollama","choices":[{"index":0,"message":{"role":"assistant","content":"我是一个人工智能助手,由OpenAI开发。我的目的是帮助用户通过提供信息、解答问题和进行对话来提高他们的体验。我可以回答关于各种主题的问题,包括但不限于科学、历史、技术和娱乐等领域。你有什么问题吗?"},"finish_reason":"stop"}],"usage":{"prompt_tokens":28,"completion_tokens":62,"total_tokens":90}}

3.3 docker安装OpenWebUI

本来想用docker安装lobe-chat,但是docker死活拒绝连接,所以选择了Open WebUI,从docker拉取,大概4个多G。

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

可能遇到的问题
1)如果docker报无法识别host.docker.internal,就升级下docker。
运维系列:centos7升级docker服务
docker 最新版本升级

2)如果没有暴露Ollama服务,那OpenWebUI死活无法连接llama3。如果不想对外暴露,按照OpenWebUI提供的方式,启动时增加–network=host,让容器共享宿主机的网络栈

docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main

3)ollama对外暴露访问
如果想宿主机也能访问虚拟机Ollama上的大模型,那需要使服务监听所有网络接口,否则只能虚拟机内部访问。
修改ollama.service,增加OLLAMA_HOST

vi /etc/systemd/system/ollama.service

...
[Service]  
...
RestartSec=3
Environment="PATH=/usr/..."
Environment=OLLAMA_HOST=0.0.0.0  

[Install]
WantedBy=default.target

修改后重启服务

sudo systemctl daemon-reload
sudo systemctl restart ollama

4.参考资料

在CentOS7虚拟机上使用Ollama本地部署Llama3大模型中文版+Open WebUI

  • 13
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

paopaodog

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值