Ollama离线本地部署deepseek r1模型到vscode中使用的方法

一、allama的一些使用命令

  • 查看端口占用情况:
sudo lsof -i :11434
  • 终止已有的ollama进程:
sudo kill -9 1234(PID)
  • 启动ollama:
ollama serve
  • 查看已安装的model:
ollama list
  • 运行model:
ollama run model_name

二、离线进行deepseek部署的步骤

需要提前安装的文件:

    • cline:可直接设置使用
    • ree code:个人使用效果比cline插件要好一些,且耗费tokens较少,推理速度较快一些
    • continue:continue修改URL,chat和tap的模型需要去配置文件里修改
  • ollama的离线安装包:
curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz

  1. 从huggingface上下载gguf(GPT-Generated Unified Format,是专为LLM设计的跨平台格式,支持CPU/GPU混合推理)文件
  2. 从gguf处创建ollama model:
ollama create DeepSeek-R1-Distill-Llama-70B-Q5_K_M -f /home/DeepSeek-R1-Distill-Llama-70B-GGUF/Modelfile   

这里的model_file内容格式应当如下:

# 这里填入gguf文件路径   
FROM /DeepSeek-R1-Distill-Llama-70B-GGUF/DeepSeek-R1-Distill-Llama-70B-Q5_K_M.gguf      
    
PARAMETER num_ctx 12800
PARAMETER num_gpu 8  # 使用 8 卡 GPU

然后通过ollama list查看是否已经创建成功

再通过下述命令来修改外部访问权限:

修改环境变量来打开外部访问:

sudo nano /etc/systemd/system/ollama.service

[service]部分添加:

Environment="OLLAMA_HOST=0.0.0.0"   
Environment="OLLAMA_ORIGINS=*" 
Environment="CUDA_VISIBLE_DEVICES=0,1"  #指定使用的卡,这里和上述的使用多卡训练的方式可以对比一下
Environment="OLLAMA_MODELS=/data/ollama/models" #指定模型存放地址,方便管理
  

再重启即可:

sudo systemctl daemon-reload   sudo systemctl restart ollama   

设置如下命令打开防火墙:

sudo ufw allow 11434/tcp

最后

ollama run model_name
http://10.18.8.203:11434或curl http://10.18.8.203:11434/api/tags  

查看是否已经running

三、一些tips

  1. 对于cline插件,默认的上下文增量为2k,需要增设上下文的记忆容量到32k,这样才算可以正常使用来匹配模型的适配性

touch Modelfile,然后nano Modelfile,再将下述内容输入进去保存退出

FROM deepseek-r1:14b
PARAMETER num_ctx 32768

然后用ollama create model_name -f Modelfile即可创建一个上下文长度为32k的一个新模型。这里还是更加建议使用ree code插件

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值