Ollama 大模型推理引擎深度优化

最新推荐文章于 2025-03-24 12:41:02 发布

由数入道

最新推荐文章于 2025-03-24 12:41:02 发布

阅读量1.8k

点赞数 49

文章标签：人工智能 ollama 大模型

本文链接：https://blog.csdn.net/cxr828/article/details/145973948

版权

一、硬件环境准备

1. 硬件选型建议

组件	推荐配置	性能影响说明
GPU	NVIDIA RTX 4090/AMD RX 7900 XTX/Intel Arc A770	单卡FP16算力需≥50 TFLOPS
CPU	Intel i9-13900K/AMD Ryzen 9 7950X	单核频率≥5.0GHz，三级缓存≥64MB
内存	DDR5 6000MHz 64GB (双通道)	带宽≥80GB/s，延迟≤CL36
存储	PCIe 5.0 NVMe SSD (7GB/s读速)	模型加载速度提升3-5倍

2. 驱动与计算库

NVIDIA 显卡

# 安装CUDA 12.3 + cuDNN 8.9.7
wget https://developer.download.nvidia.com/compute/cuda/12.3.0/local_installers/cuda_12.3.0_545.23.06_linux.run
sudo sh cuda_12.3.0_545.23.06_linux.run --silent --toolkit --samples
echo 'export PATH=/usr/local/cuda-12.3/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.3/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc

AMD 显卡

# 安装ROCm 5.7 + HIP SDK
sudo apt install rocm-hip-sdk rocm-llvm
sudo usermod -a -G video $USER  # 添加用户到video组

二、安装与基础配置

1. 多路径安装策略

# Linux自定义安装路径
export OLLAMA_ROOT="/mnt/e/ollama"
curl -fsSL https://ollama.com/install.sh | OLLAMA_ROOT=$OLLAMA_ROOT sh

# Windows注册表修改（管理员权限运行）
reg add "HKLM\SYSTEM\CurrentControlSet\Control\Session Manager\Environment" /v OLLAMA_MODELS /t REG_SZ /d "E:\AI\Models" /f

2. 代理与镜像加速

# 国内镜像配置
export OLLAMA_MODEL_SOURCE="modelscope2ollama-registry.azurewebsites.net"
ollama run $OLLAMA_MODEL_SOURCE/qwen/Qwen2.5-14B-Instruct-gguf:Q4_K_M

# 代理配置（需替换实际IP和端口）
export HTTP_PROXY="http://192.168.1.100:7890"
export HTTPS_PROXY="http://192.168.1.100:7890"

三、核心参数调优

1. 性能关键参数表

参数	推荐值	调优公式
`OLLAMA_NUM_PARALLEL`	CPU物理核心数	推荐值 = min(物理核心数, 16)
`OLLAMA_GPU_OVERHEAD`	2	显存(GB)/4 (取整)
`OLLAMA_MAX_LOADED_MODELS`	显存(GB)/7	例如24GB显存设3
`OLLAMA_KEEP_ALIVE`	3m0s	保活时间 = 平均请求间隔 × 1.5