Ollama 的安装指南、使用技巧与调优总结

最新推荐文章于 2025-06-13 15:23:14 发布

原创最新推荐文章于 2025-06-13 15:23:14 发布 · 1.8k 阅读

CC 4.0 BY-SA版权

文章标签：

17 篇文章

订阅专栏

Ollama 的安装指南、使用技巧与性能调优总结，内容结构清晰，便于快速参考：

操作系统：macOS、Linux、Windows（含 WSL2）
硬件建议：
- CPU：推荐多核处理器（如 Intel i5+/AMD Ryzen 5+）
- 内存：≥16GB（运行 7B 模型需 8GB+，13B 模型需 16GB+）
- GPU：可选（支持 NVIDIA CUDA / macOS Metal 加速）

macOS：

# Apple Silicon 芯片
curl -fsSL https://ollama.com/install.sh | sh

# Intel 芯片（需安装 Docker Desktop）
brew install ollama

Linux：

curl -fsSL https://ollama.com/install.sh | sh
# 或手动安装
sudo apt-get install ollama

# 运行默认模型（如 llama3）
ollama run llama3

# 指定模型参数版本
ollama run llama3:8b  # 8B 参数版本
ollama run mistral    # Mistral 7B

自定义模型：

创建 Modelfile：

FROM llama3
SYSTEM "你是一个编程助手，用中文回答。"

构建并运行：

ollama create my-llama -f Modelfile
ollama run my-llama

启动/停止服务：

ollama serve    # 前台运行
ollama start    # 后台运行（Linux/macOS）
ollama stop     # 停止服务

选择合适模型：
- 低显存设备：使用 7B 或量化版本（如 llama3:7b-q4_0）。
- 高性能 GPU：优先选择 13B/70B 模型。

启用 GPU 加速：

# NVIDIA GPU（需安装 CUDA）
export OLLAMA_GPU_LAYERS=24  # 设置 GPU 计算层数

# macOS Metal
export OLLAMA_METAL_GPU=1

CPU 优化：

# 限制 CPU 线程数（避免资源争抢）
export OLLAMA_NUM_THREADS=4

提高响应速度：

ollama run llama3 --num_ctx 2048 --num_batch 512  # 增大批处理大小

减少内存占用：

# 使用量化模型（牺牲少量质量换取更低内存）
ollama run llama3:7b-q4_0

# 限制上下文长度
export OLLAMA_NUM_CTX=1024

模型缓存优化：

# 指定模型缓存路径（默认 ~/.ollama）
export OLLAMA_MODELS=/path/to/large_disk

多模型并行：

# 启动多个实例（需分配不同端口）
OLLAMA_HOST=0.0.0.0:11435 ollama serve

REST API 调用：

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "你好，请写一首诗",
  "stream": false
}'

集成 LangChain：

from langchain_community.llms import Ollama
llm = Ollama(model="llama3")
print(llm("解释量子力学"))

日志分析：

tail -f ~/.ollama/logs/server.log  # 查看实时日志

核心优化方向：
1. 硬件适配：根据 GPU/CPU 能力选择模型。
2. 量化模型：平衡速度与质量。
3. 参数调优：调整批处理大小、线程数、上下文长度。
4. GPU 加速：优先启用 CUDA/Metal。

建议定期更新 Ollama 版本以获取性能改进：ollama update。更多细节可参考官方文档。