Ollama ubuntu多线程推理

1. Ollama 安装

Ollama官网:Download Ollama on Linuxicon-default.png?t=N7T8https://ollama.com/download/linux使用命令

curl -fsSL https://ollama.com/install.sh | sh

安装Ollama

2. 重新配置Ollama

安装ollama后,在命令行中输入

ollama list

一般会有如下显示

(base) csk@csk-1:~$ ollama list
NAME               	ID          	SIZE  	MODIFIED

表明现在正在运行Ollama后端,但里面没有模型。

默认运行的后端默认线程为1,无法开启多线程,可以输入如下命令,关闭默认后台

systemctl stop ollama

然后在任意目录下新建ollama_serve.sh文件,填入如下命令

OLLAMA_NUM_PARALLEL=2 OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_MODELS=/path_you_want ollama serve

其中OLLAMA_NUM_PARALLEL控制后端可用最大线程数

OLLAMA_MAX_LOADED_MODELS控制ollama后端最大部署模型数量(同时部署多种模型)

OLLAMA_MODELS控制开启服务后模型下载位置

如果想要修改模型存储位置也可以参考这篇文章

Ollama模型下载路径替换!靠谱!(Linux版本)-CSDN博客

4090可以开启16的并发线程以至于不过多影响推理运行速度,具体情况具体调整。

3. 拉取模型

开启ollama服务后,可以直接使用ollama的命令从官网下载模型

可用llama3模型见官网

https://ollama.com/library/llama3

这里我使用的是llama3:8b-text-fp16,在终端输入

ollama pull llama3:8b-text-fp16

自动拉取模型

4. 在终端对话

在终端输入

ollama run llama3:8b-text-fp16

即可在终端与llama3对话

参考网址

ollama官网: https://ollama.com/

ollama Git: https://github.com/ollama/ollama

  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值