大模型部署工程师进阶指南：从零开始部署Ollma和Qwen大模型

大模型玩家

于 2025-04-25 08:30:00 发布

阅读量1.7k

点赞数 47

文章标签： langchain 大模型人工智能产品经理学习 ai 程序员

本文链接：https://blog.csdn.net/2401_85375186/article/details/147472573

版权

★

我们平时使用的ChatGPT、kimi、豆包等Ai对话工具，其服务器都是部署在各家公司的机房里，如果我们有一些隐私数据发到对话中，很难保证信息是否安全等问题，如何在保证数据安全的情况下，又可以使用大语言模型，Ollma（哦拉玛）可以告诉你答案！

”

这是一个保姆级的教程，从下载到成功运行Qwen2.5大模型，更适合没有玩过Ollma的小白宝宝哦~

1. Ollma 是什么？

★

一句话介绍：一个可以让你在本地启动并运行大型语言模型的工具！

”

Ollma是一个开源的大模型服务工具，他可以让你在一行代码不写的情况下，在本地通过一条命令即可运行大模型。

Ollma会根据电脑配置，自动选择用CPU还是GPU运行，如果你的电脑没有GPU，会直接使用CPU进行运行（可能有点慢）

2. 安装教程

Ollma官网：[https://ollama.com/]

模型仓库：[https://ollama.com/library]

2.1 首先去官网下载

从主页点击下载，直接跳转到了当前系统所兼容的下载界面，点击download，一键下载

2.2 下载好之后安装

博主的电脑是Mac，下载好之后，直接把压缩包解压，然后移动到应用程序中即可，其他操作系统，参考这个文档：

[Windows 下的安装与配置](https://datawhalechina.github.io/handy-ollama/#/C2/2.%20Ollama%20%E5%9C%A8%20Windows%20%E4%B8%8B%E7%9A%84%E5%AE%89%E8%A3%85%E4%B8%8E%E9%85%8D%E7%BD%AE)``[Linux 安装Ollma ](https://datawhalechina.github.io/handy-ollama/#/C2/3.%20Ollama%20%E5%9C%A8%20Linux%20%E4%B8%8B%E7%9A%84%E5%AE%89%E8%A3%85%E4%B8%8E%E9%85%8D%E7%BD%AE)``[Docker 安装 Ollma](https://datawhalechina.github.io/handy-ollama/#/C2/4.%20Ollama%20%E5%9C%A8%20Docker%20%E4%B8%8B%E7%9A%84%E5%AE%89%E8%A3%85%E4%B8%8E%E9%85%8D%E7%BD%AE)

下载好之后，打开，当这个帅气的小羊驼显示在你的任务栏中的时候，说明已经启动成功了！

image.png

2.3 测试一下

打开命令行，输入ollama -h看到以下界面，就可以进行下一步，操作了~

3. 导入开源Qwen 2.5 - 0.5B 大模型

3.1 去模型仓库搜索模型

我们在上面提到的Ollma模型仓库中找到最新的千问大模型

点进去，界面如下：

3.2 加载模型

将上面的命令复制到命令行，回车执行！等待下载

等进度100%了，即可使用模型

3.3 使用模型

在命令行中，即可开启与千问大模型的对话，看到这里，是不是感觉很简单，快去点个赞！

输入/bye方可结束对话。

都看到这里了，点个赞再走吧！码字实属不易呀。

4. 部署webUI可视化对话

本文使用FastAPI 部署Ollma可视化页面，简单4步即可

1、克隆仓库

git clone https://github.com/AXYZdong/handy-ollama

克隆完成进入目标目录：

cd handy-ollama/notebook/C6/fastapi_chat_app

2、安装依赖

pip install -r requirements.txt  
pip install 'uvicorn[standard]'

3、修改app.py 代码

输入vim websocket_handler.py命令（确保你在fastapi_chat_app目录下先）更改model代码

#!/usr/bin/env python  
# -*- coding: utf-8 -*-  
import ollama  
from fastapi import WebSocket  
  
async def websocket_endpoint(websocket: WebSocket):  
    await websocket.accept()  
    user_input = await websocket.receive_text()  
  
    stream = ollama.chat(  
        model='qwen2.5:0.5b',  
        messages=[{'role': 'user', 'content': user_input}],  
        stream=True  
    )  
  
    try:  
        for chunk in stream:  
            model_output = chunk['message']['content']  
            await websocket.send_text(model_output)  
    except Exception as e:  
        await websocket.send_text(f"Error: {e}")  
    finally:  
        await websocket.close()

4、运行模型

输入命令：