Ollama 是一个开源(free/open‑source)工具,旨在让你在本地(macOS、Linux 或 Windows)下载、运行和管理大型语言模型(LLMs),不必依赖云服务 。
通过 Ollama,我们可以在电脑本地部署一个语言模型并通过聊天、集成 ide 的方式使用。
安装Ollama
首先前往 Ollama 官网进行根据对应操作系统下载
下载安装好之后打开,我们可以在菜单栏看到 Ollama 的图标,这时就Ollama 本体就已经准备就绪了。
下载模型
Ollama 只是一个调用模型的工具,所以我们需要下载不同的模型装载进 Ollama实现不同的功能,且性能不一样,越大型的模型速度越慢结果越精准对电脑要求也越高。现在我们有很多种下载模型的方法:
直接使用 Ollama 命令在 Ollama 仓库(Ollama Search)进行下载。
我们可以在上面的仓库地址中找到想要的模型,
以 DeepSeek-r1 为例,点进去之后我们能看到该模型有不同的版本,分别对应不同的参数规格。
我们复制想要下载的模型名称后,在终端(命令行)打开并输入下载命令等待下载
ollama pull deepseek-r1:8b
下载后我们就能在 ollama 中查看是否安装成功
ollama list
另有下载 guff 模型导入 ollama 的方式详见下方离线安装部分
启动 Ai Chat
安装模型后我们可以直接启动 Ollama 与 AI 进行对话,这是最简单的用法,也可用于调试性能及测试是否有问题。
ollama run deepseek-r1:8b
想要退出可以输入/exit 或者/bye,就此部署大模型成功。
集成到Vs Code实现代码补全
我们可以利用 Vscode 的 Continue 插件与 Ollama 进行对接。
下载 Continue 插件
注意,该插件根据不同操作系统有不同的构建,直接从 vscode 导出 vsix 不能用于不同操作系统导入,需要去插件市场单独下载对应的操作系统,如macos 的 Continue 插件如果直接从 macos 导出安装到 windows 则会报错下载好之后左侧工具栏会出现 Continue 图标
]]
我们点击里面的AI 选择图标并点击本地模型(Local Assistant)右边的齿轮打开配置文件
根据你下载的模型配置一下关于模型(models)的信息,每个模型可配置字段包括(基于文档) :
- name:本地标识模型的名称(必填)。
- provider:来源,如 ollama、openai 等(必填)。
- model:具体模型标识,如 llama3.1:8b、qwen2.5-coder:1.5b(必填)。
- apiBase:自定义 API 地址,替代默认。
- roles:角色功能数组,可选值如 chat, autocomplete, embed, edit, apply, summarize, rerank。
- capabilities:覆盖自动检测,功能如 tool_use, image_input。
- maxStopWords:控制停止词数量,避免 API 错误。
- promptTemplates:指定模板(chat/edit/apply/autocomplete)。
- chatOptions、embedOptions、defaultCompletionOptions:分别控制聊天、嵌入、完成参数(如温度、上下文长度、批次大小等)。
每个模型支持的功能不一样,需自行调试是否正常运行,如我下载的 qwen 就对联系文件进行 chat 不支持,在 chat 窗口提问会错误的返回错误信息。
比如配置好autocomplete 的 roles 后,我们就可以在编码时实现本地代码补全,至于速度根据电脑配置和模型规格决定,可以适当切换对比。
离线部署方案
离线部署需要:
- 用于下载模型的外网电脑
- 从外网传输文件到内网离线机器
- 足够的内网机器性能
- 模型文件(ollama 源文件或者 gguf 文件)
- Modelfile 配置文件
下载模型
如果外网机器已下载安装 Ollama 并部署了模型,可以直接使用,好处就是可以使用 ollama 自己生成的 Modelfile,模型存储路径可以在 Ollama 的设置页面找到:
一般可以在以下路径找到模型文件:
- macos
~/.ollama/models
- windows
C:\Users\<YourUsername>\AppData\Local\Ollama\Models
或者
C:\Users\<YourUsername>\.ollama\models
进入以上文件夹后进入源文件目录/blobs。
通过文件的大小判断哪个是模型本体,找出来通过自己的方式传输到内网。
然后通过命令获取这个模型的 modelfile 并保存为 Modelfile 文件传输到内网。
ollama show --modelfile <model-name>
当然也可以从头下载模型并自己编写 Modelfile
前往https://huggingface.co/搜索自己想要的模型的 gguf 版
点击进入详情并点击 Files and versions
选择合适的规格并下载,与此同时手动配置一个 Modelfile,以下为示例
FROM /Users/user/Download/qwen2.5-coder-3b-instruct-q3_k_m.gguf
TEMPLATE """{{- if .Suffix }}<|fim_prefix|>{{ .Prompt }}<|fim_suffix|>{{ .Suffix }}<|fim_middle|>
{{- else if .Messages }}
{{- if or .System .Tools }}<|im_start|>system
{{- if .System }}
{{ .System }}
{{- end }}
{{- if .Tools }}
安装部署
- 通过传输安装包在内网安装 Ollama 软件,
- 将 Modelfile 和模型本体文件存放到一个任意文件夹
- 通过命令创建 ollama 模型
ollama create <new-model-name> -f <path/to/Modelfile>
运行成功后,即可通过 ollama list 查看新模型,并使用 ollama run my-tutor 进行推理
就此离线部署完成接下来就和上文的使用方式一样。