本地虚拟机Centos7使用Ollama运行llama3中文模型和OpenWebUI访问

最新推荐文章于 2025-04-17 18:33:51 发布

paopaodog

最新推荐文章于 2025-04-17 18:33:51 发布

阅读量3.2k

点赞数 14

分类专栏： agi 文章标签： llama AIGC

本文链接：https://blog.csdn.net/paopaodog/article/details/139824516

版权

agi 专栏收录该内容

2 篇文章

订阅专栏

本地Centos7虚拟机使用Ollama3运行Llama3中文大模型和OpenWebUI

1.部署环境
2.准备
3.部署步骤

1.部署环境

我是在win10上装的centos7，打算把ollama和大模型调用工具放在一起。

2.准备

参考网上资料，把centos7自带的python2升级到python3

sudo yum install epel-release
sudo yum install python3
sudo yum install python3-devel
sudo yum install python3-pip
python3 --version

3.部署步骤

3.1 安装Ollama

安装Ollama很简单，参考官方文档就可以

curl -fsSL https://ollama.com/install.sh | sh

3.2 ollama下载llama3中文模型

从ollama library中搜索llama3找下载最多的中文版，我这里选择了8b q4的，因为虚拟机硬盘空间不够，有条件的可以选择q8或者fp16的。大概4.7G，耐心等待下载完成即可。

ollama run wangshenzhi/llama3-8b-chinese-chat-ollama-q4
ollama run wangshenzhi/llama3-8b-chinese-chat-ollama-q8
ollama run wangshenzhi/llama3-8b-chinese-chat-ollama-fp16

量化是一种模型压缩技术，通过减少表示权重和激活的位数来减少模型的大小和推理时的计算量。q4表示模型被量化到 4 位，意味着模型大小会显著减少，但会牺牲一些精度。q4大概4.7G，q8大概8.5G，fp16大概16G。

下载完后，可以在虚拟机上测试下：

curl http://127.0.0.1:11434/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "wangshenzhi/llama3-8b-chinese-chat-ollama-q4",
        "messages": [
            {
                "role": "system",
                "content": "You are a helpful assistant."
            },
            {
                "role": "user",
                "content": "你是谁？"
            }
        ]
    }'

{"id":"chatcmpl-236","object":"chat.completion","created":1718795027,"model":"wangshenzhi/llama3-8b-chinese-chat-ollama-q4","system_fingerprint":"fp_ollama","choices":[{"index":0,"message":{"role":"assistant","content":"我是一个人工智能助手，由OpenAI开发。我的目的是帮助用户通过提供信息、解答问题和进行对话来提高他们的体验。我可以回答关于各种主题的问题，包括但不限于科学、历史、技术和娱乐等领域。你有什么问题吗？"},"finish_reason":"stop"}],"usage":{"prompt_tokens":28,"completion_tokens":62,"total_tokens":90}}

3.3 docker安装OpenWebUI

本来想用docker安装lobe-chat，但是docker死活拒绝连接，所以选择了Open WebUI，从docker拉取，大概4个多G。

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

可能遇到的问题：
1）如果docker报无法识别host.docker.internal，就升级下docker。
运维系列：centos7升级docker服务
 docker 最新版本升级

2）如果没有暴露Ollama服务，那OpenWebUI死活无法连接llama3。如果不想对外暴露，按照OpenWebUI提供的方式，启动时增加–network=host，让容器共享宿主机的网络栈

docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main

3）ollama对外暴露访问
如果想宿主机也能访问虚拟机Ollama上的大模型，那需要使服务监听所有网络接口，否则只能虚拟机内部访问。
修改ollama.service，增加OLLAMA_HOST

vi /etc/systemd/system/ollama.service

...
[Service]  
...
RestartSec=3
Environment="PATH=/usr/..."
Environment=OLLAMA_HOST=0.0.0.0  

[Install]
WantedBy=default.target

修改后重启服务

sudo systemctl daemon-reload
sudo systemctl restart ollama

4.参考资料

在CentOS7虚拟机上使用Ollama本地部署Llama3大模型中文版+Open WebUI