Ollama 安装、运行大模型（CPU 实操版）

最新推荐文章于 2025-04-17 20:19:17 发布

宇宙有只 AGI

最新推荐文章于 2025-04-17 20:19:17 发布

阅读量1.1k

点赞数 14

本文链接：https://blog.csdn.net/be_clever/article/details/142835804

版权

1. 操作步骤

1.1 安装

# 通过 homebrew 安装
brew install ollama

1.2 验证(可跳过)

# 输出命令使用提示则安装成功
ollama --help

1.3 启动服务端

# 启动 ollama 服务(默认在 11434 端口，模型文件在 ~/.ollama)
ollama serve

1.4 跑通第一个模型

# 新开一个终端窗口，执行如下命令(将下载并运行 Qwen2 的 0.5B 的 Chat 模型)
ollama run qwen2.5:0.5b-instruct

2. 参考资料

2.1 Ollama

GitHub

https://github.com/ollama/ollama

3. 资源

3.1 Ollama

library(模型工厂)

https://ollama.com/library

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

宇宙有只 AGI

关注关注

14
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

ollama 运行第三方模型

05-06

6万+

本质上是通过GGUF 来创建ollama可执行的模型文件。

ollama教程和效果演示，CPU就能跑在本地跑一个大语言模型 CPU+内存即可

南七小僧的学海无涯

04-30

1201

随着ChatGPT的兴起，LLM (Large Language Model，大语言模型) 已经成为人工智能和自然语言处理领域的热门话题。本篇文章我将和大家一起在自己的个人电脑上运行一个大语言模型。

参与评论您还未登录，请先登录后发表或查看评论

在本地跑一个大语言模型

阿不的博客

03-04

3399

ollama安装及本地部署开源大模型

qq_35175478的博客

01-07

2349

是一个开源的 LLM（大型语言模型）服务工具，用于简化在本地运行大语言模型、降低使用大语言模型的门槛，使得大模型的开发者、研究人员和爱好者能够在本地环境快速实验、管理和部署最新大语言模型，包括如Qwen2、Llama3、Phi3、Gemma2等开源的大型语言模型。官网：https://ollama.com/，官方网站的介绍就一句话：Get up and running with large language models. （开始使用大语言模型。D:\ollama\models：配置大模型本地存储路径。

「ollama」安装包

热门推荐

My_wife_QBL的博客

11-02

2万+

Ollama是一个开源的大型语言模型服务工具，它帮助用户快速在本地运行大模型。通过简单的安装指令，用户可以执行一条命令就在本地运行开源大型语言模型，Ollama极大地简化了在Docker容器内部署和管理LLM的过程，使得用户能够快速地在本地运行大型语言模型。

【AI工作流】Ollama本地化大模型安装

m0_70486148的博客

08-23

3339

为了给以后的工作流和本地模型铺路，有必要说一下Ollama本地大语言后台的安装。1.Ollama在安装之前，有必要先说明一下Ollama是什么。Ollama是一个大语言模型的服务后台，能够在零基础的前提下帮助用户轻松部署大语言模型。其特点包括如下：优点：Ollama后台服务能够帮助用户轻松搭建大语言模型服务，并且提供相应的API以扩展到其他如Dify等Web前台以及Obsidian等笔记软件，以最快的速度形成AI问答/AGENT/工作流等工作形式。

Ollama安装超详细过程，一看就会！（教你实现Deepseek大模型）

小星袁

03-03

2399

Ollama安装超详细过程，一看就会！💻，Ollama安装超详细过程，一看就会！💻，Ollama安装全攻略，一看就会！Ollama安装全攻略，一看就会！Ollama安装超详细过程，一看就会！💻，Ollama安装超详细过程，一看就会！💻，Ollama安装全攻略，一看就会！Ollama安装全攻略，一看就会！Ollama安装超详细过程，一看就会！💻，Ollama安装超详细过程，一看就会！💻，Ollama安装全攻略，一看就会！Ollama安装全攻略，一看就会！

第一章 Ollama安装

liujianming的博客

04-05

2735

Ollama安装

Ollama安装到D盘

weixin_43152440的博客

03-29

1008

Ollama安装后有4个多GB，默认安装在C盘Appdata文件夹，安装过程中无法修改安装目录，对C盘空间不大的用户极度不友好，这篇文章提供一种安装到其他盘符的方法。

LLM | Ollama 安装、运行大模型（CPU 实操版）

bagell的博客

10-07

1551

这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。帮助很多人得到了学习和成长。

ollama运行大模型如何进行训练和微调？

03-24

<think>嗯，用户想了解如何使用Ollama来训练和微调大模型。首先，我需要回忆一下Ollama的基本信息。Ollama主要是用来本地运行大型语言模型的工具，支持多种模型如Llama、Mistral等。用户可能已经知道如何用Ollama运行模型，现在想进一步了解如何训练和微调自己的模型。首先，我得确认Ollama是否支持训练和微调功能。根据之前的了解，Ollama主要专注于模型的部署和运行，而不是训练。训练大模型通常需要更多的资源和框架，比如PyTorch、TensorFlow或者Hugging Face的Transformers库。可能用户误以为Ollama可以直接进行训练，需要澄清这一点。接下来，用户可能需要了解如何准备数据，选择合适的框架，进行模型训练，然后如何将训练好的模型集成到Ollama中使用。需要分步骤解释，从数据准备到微调，再到转换模型格式，最后加载到Ollama。另外，用户可能对微调的具体方法感兴趣，比如LoRA（低秩适应）或者QLoRA，这些技术可以在资源有限的情况下进行微调。需要简要介绍这些方法，并给出示例代码，比如使用Hugging Face的库进行微调。还需要注意模型格式的转换，Ollama使用的是GGUF或GGML格式，所以训练后的PyTorch模型需要转换成这种格式，可能需要用到llama.cpp这样的工具。这里要详细说明转换步骤，确保用户能够操作。可能遇到的误区是用户直接使用Ollama进行训练，但实际上需要依赖其他工具。需要明确指出Ollama的角色，并引导用户使用正确的工具链。同时，提醒用户训练和微调所需的硬件资源，比如GPU的重要性，避免他们在资源不足的情况下尝试训练大型模型。最后，确保回答结构清晰，分步骤说明，并给出示例命令和代码，帮助用户逐步完成整个过程。同时要强调Ollama本身不提供训练功能，而是需要结合其他框架，避免混淆。</think>以下是关于Ollama运行大模型的训练和微调技术的分步说明： ### 一、基础认知 1. **Ollama定位** Ollama是专注于大模型**本地化部署和推理**的工具，原生不提供训练功能，其核心价值在于： - 提供预编译的GGUF/GGML格式模型 - 实现CPU/GPU混合推理优化 - 简化模型交互接口 2. **训练层级划分**： ```mermaid graph LR A[预训练] --> B[指令微调] B --> C[领域适配] C --> D[量化部署] ``` ### 二、完整训练流程（需配合其他框架） #### 步骤1：环境准备 ```bash # 示例环境配置 conda create -n llama_train python=3.10 conda activate llama_train pip install torch==2.0.1 transformers==4.33.0 datasets==2.14.4 peft==0.5.0 ``` #### 步骤2：数据准备 ```python # 数据集格式示例（JSONL） { "instruction": "解释量子纠缠", "input": "", "output": "量子纠缠是量子力学中..." } ``` #### 步骤3：选择微调方法 **LoRA微调示例**： ```python from peft import LoraConfig, get_peft_model lora_config = LoraConfig( r=8, lora_alpha=16, target_modules=["q_proj", "v_proj"], lora_dropout=0.05, bias="none", task_type="CAUSAL_LM" ) model = get_peft_model(base_model, lora_config) ``` #### 步骤4：训练执行 ```bash # 使用Hugging Face Trainer accelerate launch --num_processes 4 \ --mixed_precision bf16 \ train.py \ --model_name meta-llama/Llama-2-7b-chat-hf \ --batch_size 2 \ --gradient_accumulation_steps 8 ``` ### 三、Ollama集成流程 1. **模型格式转换** ```bash # 使用llama.cpp转换 ./quantize ./models/ggml-model-f16.gguf ./models/ggml-model-q4_0.gguf q4_0 ``` 2. **创建Modelfile** ```text FROM ./finetuned-llama-7b-q4_0.gguf PARAMETER num_ctx 4096 PARAMETER temperature 0.7 ``` 3. **部署运行** ```bash ollama create mymodel -f Modelfile ollama run mymodel ``` ### 四、关键注意事项 1. **硬件需求**： - 7B模型微调需24GB+显存 - 使用QLoRA可将需求降至12GB - CPU训练效率极低（不推荐） 2. **常见误区**： - 误将Ollama作为训练框架 - 未正确配置Flash Attention - 忽视梯度累积设置 ### 五、进阶技巧 1. **混合精度训练**： ```python torch.cuda.amp.autocast() scaler = GradScaler() ``` 2. **监控工具**： ```bash wandb login ``` 3. **量化部署优化**： ```text GGUF支持多种量化类型： - q4_0：平衡选择 - q5_k_m：高质量输出 - q2_k：最小内存占用 ``` 建议在完整训练流程中结合NVIDIA的NeMo或DeepSpeed等优化框架，可提升大规模训练的稳定性。实际案例显示，使用LoRA微调Llama2-7B模型在A100上约需6-8小时完成领域适配训练。