一、allama的一些使用命令
- 查看端口占用情况:
sudo lsof -i :11434
- 终止已有的ollama进程:
sudo kill -9 1234(PID)
- 启动ollama:
ollama serve
- 查看已安装的model:
ollama list
- 运行model:
ollama run model_name
二、离线进行deepseek部署的步骤
需要提前安装的文件:
- 模型所对应的gguf文件:https://huggingface.co/bartowski/DeepSeek-R1-Distill-Qwen-32B-GGUF/blob/main/DeepSeek-R1-Distill-Qwen-32B-Q8_0.gguf
- 离线安装vscode插件
-
- cline:可直接设置使用
- ree code:个人使用效果比cline插件要好一些,且耗费tokens较少,推理速度较快一些
- continue:continue修改URL,chat和tap的模型需要去配置文件里修改
- ollama的离线安装包:
curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
- 从huggingface上下载gguf(GPT-Generated Unified Format,是专为LLM设计的跨平台格式,支持CPU/GPU混合推理)文件
- 从gguf处创建ollama model:
ollama create DeepSeek-R1-Distill-Llama-70B-Q5_K_M -f /home/DeepSeek-R1-Distill-Llama-70B-GGUF/Modelfile
这里的model_file内容格式应当如下:
# 这里填入gguf文件路径
FROM /DeepSeek-R1-Distill-Llama-70B-GGUF/DeepSeek-R1-Distill-Llama-70B-Q5_K_M.gguf
PARAMETER num_ctx 12800
PARAMETER num_gpu 8 # 使用 8 卡 GPU
然后通过ollama list查看是否已经创建成功
再通过下述命令来修改外部访问权限:
修改环境变量来打开外部访问:
sudo nano /etc/systemd/system/ollama.service
[service]部分添加:
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"
Environment="CUDA_VISIBLE_DEVICES=0,1" #指定使用的卡,这里和上述的使用多卡训练的方式可以对比一下
Environment="OLLAMA_MODELS=/data/ollama/models" #指定模型存放地址,方便管理
再重启即可:
sudo systemctl daemon-reload sudo systemctl restart ollama
设置如下命令打开防火墙:
sudo ufw allow 11434/tcp
最后
ollama run model_name
http://10.18.8.203:11434或curl http://10.18.8.203:11434/api/tags
查看是否已经running
三、一些tips
- 对于cline插件,默认的上下文增量为2k,需要增设上下文的记忆容量到32k,这样才算可以正常使用来匹配模型的适配性
touch Modelfile,然后nano Modelfile,再将下述内容输入进去保存退出
FROM deepseek-r1:14b
PARAMETER num_ctx 32768
然后用ollama create model_name -f Modelfile即可创建一个上下文长度为32k的一个新模型。这里还是更加建议使用ree code插件