Ollama离线本地部署deepseek r1模型到vscode中使用的方法

最新推荐文章于 2025-02-21 20:17:11 发布

weixin_42060454

最新推荐文章于 2025-02-21 20:17:11 发布

阅读量962

点赞数 5

文章标签： vscode 语言模型

本文链接：https://blog.csdn.net/weixin_42060454/article/details/145571964

版权

一、allama的一些使用命令

查看端口占用情况：

sudo lsof -i :11434

终止已有的ollama进程：

sudo kill -9 1234（PID）

启动ollama:

ollama serve

查看已安装的model:

ollama list

运行model:

ollama run model_name

二、离线进行deepseek部署的步骤

需要提前安装的文件：

模型所对应的gguf文件：https://huggingface.co/bartowski/DeepSeek-R1-Distill-Qwen-32B-GGUF/blob/main/DeepSeek-R1-Distill-Qwen-32B-Q8_0.gguf
离线安装vscode插件

- cline:可直接设置使用
- ree code：个人使用效果比cline插件要好一些，且耗费tokens较少，推理速度较快一些
- continue：continue修改URL，chat和tap的模型需要去配置文件里修改

ollama的离线安装包：

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz

从huggingface上下载gguf（GPT-Generated Unified Format，是专为LLM设计的跨平台格式，支持CPU/GPU混合推理）文件
从gguf处创建ollama model:

ollama create DeepSeek-R1-Distill-Llama-70B-Q5_K_M -f /home/DeepSeek-R1-Distill-Llama-70B-GGUF/Modelfile

这里的model_file内容格式应当如下：

# 这里填入gguf文件路径   
FROM /DeepSeek-R1-Distill-Llama-70B-GGUF/DeepSeek-R1-Distill-Llama-70B-Q5_K_M.gguf      
    
PARAMETER num_ctx 12800
PARAMETER num_gpu 8  # 使用 8 卡 GPU

然后通过ollama list查看是否已经创建成功

再通过下述命令来修改外部访问权限：

修改环境变量来打开外部访问：

sudo nano /etc/systemd/system/ollama.service

[service]部分添加：

Environment="OLLAMA_HOST=0.0.0.0"   
Environment="OLLAMA_ORIGINS=*" 
Environment="CUDA_VISIBLE_DEVICES=0,1"  #指定使用的卡，这里和上述的使用多卡训练的方式可以对比一下
Environment="OLLAMA_MODELS=/data/ollama/models" #指定模型存放地址，方便管理

再重启即可：

sudo systemctl daemon-reload   sudo systemctl restart ollama

设置如下命令打开防火墙：

sudo ufw allow 11434/tcp

最后

ollama run model_name
http://10.18.8.203:11434或curl http://10.18.8.203:11434/api/tags

查看是否已经running

三、一些tips

对于cline插件，默认的上下文增量为2k，需要增设上下文的记忆容量到32k，这样才算可以正常使用来匹配模型的适配性

touch Modelfile，然后nano Modelfile，再将下述内容输入进去保存退出

FROM deepseek-r1:14b
PARAMETER num_ctx 32768

然后用ollama create model_name -f Modelfile即可创建一个上下文长度为32k的一个新模型。这里还是更加建议使用ree code插件