ollama模型CPU轻量化部署

一、定义

  1. ollama 定义
  2. 环境部署
  3. demo
  4. 加载本地模型方法
  5. 基本指令
  6. 关闭开启ollama
  7. ollama 如何同时 运行多个模型, 多进程
  8. ollama 如何分配gpu
  9. 修改模型的存储路径
  10. 后台运行

二、实现

  1. ollama 定义
    ollama 是llama-cpp 的进一步封装,更加简单易用,类似于docker.
    模型网址:https://www.ollama.com/
    部署网址:https://github.com/ollama/ollama
    教程:https://github.com/ollama/ollama/releases
  2. 环境部署
    1. 宿主机安装
    curl -fsSL https://ollama.com/install.sh | sh
    在这里插入图片描述
    curl http://localhost:11434 已经启动。
远程访问配置:
>>sudo vi /etc/systemd/system/ollama.service
对于每个环境变量,在 [Service] 部分下添加一行 Environment:
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
保存并退出。
重新加载 systemd 并重新启动 Ollama:
>>systemctl daemon-reload
>>systemctl restart ollama

在这里插入图片描述
2. docker 模式安装
https://hub.docker.com/r/ollama/ollama

docker pull ollama/ollama
cpu:
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
gpu:
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

  1. 案例
    1.加载模型/运行模型

                
### 如何配置 Ollama 仅使用 CPU 运行 #### 安装 Ollama 为了使计算机能够利用 Ollama 来运行大型模型,首先需要安装此工具。可以通过 Homebrew 在 macOS 上轻松完成这一操作: ```bash brew install ollama ``` 验证安装是否成功的命令为 `ollama --help`,如果显示的是命令的帮助信息,则表明安装已经顺利完成[^4]。 #### 启动服务端 启动 Ollama 的服务端是必要的一步,这会使得后续的操作得以正常进行。默认情况下,该服务会在 11434 端口上监听请求,并将模型文件存储于用户的主目录下的 `.ollama` 文件夹内: ```bash ollama serve ``` #### 使用量化后的模型减少计算需求 对于希望仅仅依赖 CPU 而不涉及 GPU 加速的情况来说,选择合适的预训练模型版本至关重要。Ollama 支持特定优化过的、适合 CPU 执行的量化模型,这类模型经过特别处理以降低运算强度并提高效率。例如,“Qwen2”的小型变体即是一个不错的选择。 #### 运行首个模型实例 当一切准备就绪之后,可以尝试加载并测试一个小规模的语言模型来确认环境搭建无误。下面这条指令将会下载一个适用于对话场景的小型化 Qwen2 模型,并立即开始交互式的聊天体验: ```bash ollama run qwen2.5:0.5b-instruct ``` 上述过程中,默认设置均针对 CPU 计算进行了调整,无需额外指定参数即可确保程序在仅有 CPU 的环境中顺利运作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值