一、硬件环境准备
1. 硬件选型建议
组件 |
推荐配置 |
性能影响说明 |
GPU |
NVIDIA RTX 4090/AMD RX 7900 XTX/Intel Arc A770 |
单卡FP16算力需≥50 TFLOPS |
CPU |
Intel i9-13900K/AMD Ryzen 9 7950X |
单核频率≥5.0GHz,三级缓存≥64MB |
内存 |
DDR5 6000MHz 64GB (双通道) |
带宽≥80GB/s,延迟≤CL36 |
存储 |
PCIe 5.0 NVMe SSD (7GB/s读速) |
模型加载速度提升3-5倍 |
2. 驱动与计算库
NVIDIA 显卡
wget https://developer.download.nvidia.com/compute/cuda/12.3.0/local_installers/cuda_12.3.0_545.23.06_linux.run
sudo sh cuda_12.3.0_545.23.06_linux.run --silent --toolkit --samples
echo 'export PATH=/usr/local/cuda-12.3/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.3/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
AMD 显卡
sudo apt install rocm-hip-sdk rocm-llvm
sudo usermod -a -G video $USER
二、安装与基础配置
1. 多路径安装策略
export OLLAMA_ROOT="/mnt/e/ollama"
curl -fsSL https://ollama.com/install.sh | OLLAMA_ROOT=$OLLAMA_ROOT sh
reg add "HKLM\SYSTEM\CurrentControlSet\Control\Session Manager\Environment" /v OLLAMA_MODELS /t REG_SZ /d "E:\AI\Models" /f
2. 代理与镜像加速
export OLLAMA_MODEL_SOURCE="modelscope2ollama-registry.azurewebsites.net"
ollama run $OLLAMA_MODEL_SOURCE/qwen/Qwen2.5-14B-Instruct-gguf:Q4_K_M
export HTTP_PROXY="http://192.168.1.100:7890"
export HTTPS_PROXY="http://192.168.1.100:7890"
三、核心参数调优
1. 性能关键参数表
参数 |
推荐值 |
调优公式 |
OLLAMA_NUM_PARALLEL |
CPU物理核心数 |
推荐值 = min(物理核心数, 16) |
OLLAMA_GPU_OVERHEAD |
2 |
显存(GB)/4 (取整) |
OLLAMA_MAX_LOADED_MODELS |
显存(GB)/7 |
例如24GB显存设3 |
OLLAMA_KEEP_ALIVE |
3m0s |
保活时间 = 平均请求间隔 × 1.5 |
2. 硬件适配模板