Ollama 本地CPU部署开源大模型

中年猿人

于 2024-07-18 19:38:53 发布

阅读量308

点赞数 9

文章标签：开源 windows 人工智能数据库服务器机器学习语言模型

本文链接：https://blog.csdn.net/2301_76161259/article/details/140531334

版权

Ollama可以在本地CPU非常方便地部署许多开源的大模型。

如 Facebook的llama3, 谷歌的gemma, 微软的phi3，阿里的qwen2 等模型。

完整支持的模型列表可以参考：https://ollama.com/library

它基于llama.cpp实现，本地CPU推理效率非常高（当然如果有GPU的话，推理效率会更高）, 还可以兼容 openai的接口。

本文将按照如下顺序介绍Ollama的使用方法~

⚫️ 下载安装Ollama

⚫️ 命令行交互

⚫️ python接口交互

⚫️ jupyter魔法命令交互

一，下载安装 Ollama

可以从官网下载Ollama: https://ollama.com/

mac版本的压缩文件大概180M多，正常网速大概下载几分钟就下完了。

支持mac,linux, win 操作系统，跟正常的软件一样安装。

安装好后就可以在命令行中进行交互了。

以下是一些常用的命令。

ollama run qwen2 #跑qwen2模型，如果本地没有，会先下载  
  
ollama pull llama3 #下载llama3模型到本地  
  
ollama list #查看本地有哪些模型可用  
  
ollama rm #删除本地的某个模型  
  
ollama help #获取帮助

!ollama help

Large language model runner  
  
Usage:  
  ollama [flags]  
  ollama [command]  
  
Available Commands:  
  serve       Start ollama  
  create      Create a model from a Modelfile  
  show        Show information for a model  
  run         Run a model  
  pull        Pull a model from a registry  
  push        Push a model to a registry  
  list        List models  
  ps          List running models  
  cp          Copy a model  
  rm          Remove a model  
  help        Help about any command  
  
Flags:  
  -h, --help      help for ollama  
  -v, --version   Show version information  
  
Use "ollama [command] --help" for more information about a command.

二，命令行交互

可以在命令行中用 ollama run qwen2 运行一个模型，然后在命令行中和它对话。

下面的gif动画没有做任何加速。这个回复速度还是非常的感人的~

三，Python接口交互

在命令行运行诸如 ollama run qwen2，实际上就会在后台起了一个qwen2的模型服务。

我们就可以用Python代码和qwen2做交互了。

我们可以选择ollama官方出的 ollama-python的库的接口进行交互，也可以使用openai这个库的接口进行交互。

import subprocess  
#后台启动一个qwen2模型服务，相当于 在命令行中运行 `ollama run qwen2`  
cmd = ["ollama","run qwen2"]  
process = subprocess.Popen(cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE)

1，使用ollama-python 库进行交互

#!pip install ollama

import ollama  
response = ollama.chat(model='qwen2',  
                       stream=False,  
    messages=[{'role': 'user',  
            'content': '段子赏析：我已经不是那个当年的穷小子了，我是今年的那个穷小子。'}]  
)

print(response['message']['content'])

这个段子通过幽默的方式表达了对于个人经济状况的自嘲和幽默看待。在日常生活中，人们经常会遇到相似的自我调侃，尤其是在讨论个人财务或生活阶段变化时。这段话中的“已经不是当年的穷小子”暗示了过去某个时间点上的经济状况不佳，而“我是今年的那个穷小子”则将当前的情况与过去的困境相比较，强调了现在依然处于类似的经济挑战中。  
  
通过这种自我调侃的方式，人们可以减轻对于自身困境的关注和压力。幽默不仅是一种释放紧张情绪的手段，也是增进人际关系、建立共鸣的有效工具。在面对生活中的不如意时，以轻松幽默的态度去看待问题，不仅可以帮助个人保持乐观的心态，还能够使对话氛围更加和谐有趣。  
  
这样的段子也提醒我们，在追求物质财富的同时，保持内心的平和与对生活的积极态度同样重要。通过分享类似的经历或自我调侃，可以增进人们之间的理解和支持，构建一个更包容、更乐观的社会环境。

2, 使用openai接口交互

#!pip install openai

ollama还支持非常热门的openai接口，简简单单，本地就mock了一个chatgpt。

这样许多基于openai接口开发的工具(如lanchain，pandasai）就可以使用 ollama支持的免费开源模型替代chatgpt了。

我们这里演示其流式输出模式。

from openai import OpenAI  
client = OpenAI(  
    base_url='http://localhost:11434/v1/',  
    api_key='ollama', #实际上本地模型不需要api_key  
)  
  
completion = client.chat.completions.create(  
    messages=[  
        {  
            'role': 'user',  
            'content': '段子赏析：爱一个人的眼神是藏不住的，爱两个人就一定要藏住。',  
        }  
    ],  
    model='qwen2',  
    stream=True  # add this line to enable streaming output  
)

from IPython.display import display,clear_output   
response = ""  
for chunk in completion:  
    response += chunk.choices[0].delta.content  
    print(response)  
    clear_output(wait=True)

这个段子以幽默的方式探讨了爱情中的微妙之处。它指出当爱一个人时，人们很容易在眼神、言语和行动中流露出这份情感，而这种直接表达是无心之失，却也容易被察觉或误解。

“爱一个人的眼神是藏不住的”，这句话强调了爱情中的热情与自然流露，当我们深爱某人时，哪怕试图掩饰，那份炽热的情感还是会在我们的眼睛里反映出来。这可能是不经意间的微笑、温柔的目光或是无法抗拒的关心与注意。人们往往在无意识中用身体语言表达出自己的感情，尤其是在真正爱一个人的时候。

然而，“爱两个人就一定要藏住”，则可能暗示了对爱情的不同层次或更复杂的考量。这里可能是指，在某些情境下，为了维护关系的平衡、隐私或是避免多头恋等复杂情感关系带来的困扰，需要在行为和表达上更加谨慎或保守。“藏住”可能意味着要控制自己的公开表现、减少与第二个人过于亲密的行为以及降低自己情绪上的直接暴露。

这个段子通过对比单恋情和双恋情在眼神或情感流露方面的不同态度，提出了爱情中的多重考量和策略。它既体现了对直接表达情感的欣赏，也提醒了人们在复杂情感关系中可能需要考虑的因素。

四，jupyter魔法命令交互

就我个人而言，我非常喜欢在jupyter notebook 中开发调试代码。

如果能够在notebook中就直接和ollama交互，并且自动把对话结果加入到history上下文，从而实现多轮对话交互，那是非常的美妙。

通过自定义一个jupyter 魔法命令，我们可以非常方便地实现上述功能。

完整定义代码见notebook源码。

import sys   
class Ollama:  
    def __init__(self,  
                 model='qwen2',  
                 max_chat_rounds=20,  
                 stream=True,  
                 system=None,  
                 history=None  
                ):  
        ...  
               
    @classmethod  
    def build_messages(cls,query=None,history=None,system=None):  
        ...  
        return messages  
  
    def chat(self, messages, stream=True):  
        ...  
        return completion  
          
          
    def __call__(self,query):  
        ...  
        return response   
      
    def register_magic(self):  
        import IPython  
        from IPython.core.magic import (Magics, magics_class, line_magic,  
                                        cell_magic, line_cell_magic)  
        ...  
        magic = ChatMagics(ipython,self)  
        ipython.register_magics(magic)

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

中年猿人

关注

9
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Ollama 本地CPU部署开源大模型

Ollama可以在本地CPU非常方便地部署许多开源的大模型。如 Facebook的llama3, 谷歌的gemma, 微软的phi3，阿里的qwen2 等模型。完整支持的模型列表可以参考：https://ollama.com/library它基于llama.cpp实现，本地CPU推理效率非常高（当然如果有GPU的话，推理效率会更高）, 还可以兼容 openai的接口。本文将按照如下顺序介绍Ollama的使用方法~⚫️ 下载安装Ollama⚫️ 命令行交互⚫️ python接口交互。
复制链接

扫一扫