采用Ollama运行本地大模型

最新推荐文章于 2024-07-28 20:56:29 发布

Lee Howard

最新推荐文章于 2024-07-28 20:56:29 发布

阅读量477

点赞数 9

分类专栏：大语言模型 LLM 文章标签： llm ollama 大语言模型 qwen glm

本文链接：https://blog.csdn.net/pilihaotian/article/details/140602478

版权

大语言模型同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

LLM

4 篇文章 0 订阅

订阅专栏

Ollama

Ollama，羊驼，快速的在本地电脑上运行大模型，只需要下载一个应用包即可，通过简单的安装指令，可以让用户执行一条命令就在本地运行开源大型语言模型，无需安装额外的环境依赖和编译等操作。支持Linux、Windows、Macos。

Ollama 将模型权重、配置和数据捆绑到一个包中，定义成 Modelfile。它优化了设置和配置细节，包括 GPU 使用情况。

优势

使用极其方便。一键安装应用，一键获取模型，一键启动模型服务并进行对话。
轻量级。代码简洁，运行时占用资源少。
可扩展。
可和其他框架进行整合。

本文以Windows系统为例，其他系统类似。

建议8G显存，16G+内存，固态硬盘，容量越大越好，需存储模型。

案例

下载

下载地址

安装

双击后，一直下一步直到安装完成即可。

模型的选择

在官网，点击models，按照 most popular进行排序，或者点击模型进行搜索。国内比较好的模型，如glm4和qwen系列均可选择
在这里插入图片描述

注意：模型对内存和显卡有要求，根据电脑的实际配置选取模型。一般情况下，模型的大小小于显存的大小运行比较流程，运行速度比较快，硬盘最好是固态，机械硬盘也可以，CPU要求不是很高。
比如，8G显存32G内存的配置，可以流程运行9B左右的模型，但运行大于32B以上的模型就比较吃力，推理速度很慢。

运行

打开cmd，输入ollama run {模型名称}，如，运行glm4-9b，则执行

ollama run glm4:9b

如果之前没有下载该模型，那么系统会首先下载模型，下载后运行，其中下载速度还是很快的，下载至99%到100%速度较慢。
在这里插入图片描述

效果

问答

在这里插入图片描述

逻辑运算

最近比较火的测试大模型的题目，glm效果不错，qwen错了。
在这里插入图片描述

在这里插入图片描述

资源占用

CPU和GPU分别在推理的时候使用，在加载模型的时候，会将资源提前加载到内存中。在推理的时候，显存使用率较高，如果模型较大，则推理速度较慢。8G显存在运行9B模型的时候，非常丝滑，在运行14B模型的时候，类似打字机一样，比较慢。

常用命令

获取模型
ollama pull llama3
运行模型
ollama run  llama3
移除模型
ollama rm llama3
多模态
What's in this image? /Users/jmorgan/Desktop/smile.png
显示模型信息
ollama show llama3
罗列已安装模型
ollama list
后端运行服务
ollama serve

下节整合WebUI。

Lee Howard

关注

9
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
采用Ollama运行本地大模型

羊驼，快速的在本地电脑上运行大模型，只需要下载一个应用包即可，通过简单的安装指令，可以让用户执行一条命令就在本地运行开源大型语言模型，无需安装额外的环境依赖和编译等操作。支持Linux、Windows、Macos。Ollama 将模型权重、配置和数据捆绑到一个包中，定义成 Modelfile。它优化了设置和配置细节，包括 GPU 使用情况。
复制链接

扫一扫

专栏目录