Ollama运行本地LLM大模型简单教程:大显存很重要

近段时间大家在网上见到AI这个关键词的频率越来越高了,实际上AI在生产与创作领域已经有相当广泛的应用,视频和照片编辑、图片素材生成、视频超分、添加字幕以及翻译、视频会议、起草文档和PPT、数据分析和解读甚至编程等应用在AI助力下都可大幅提升效率。而对于个人用户来说,把这些工作用的软件工具都剔除后,最有用的应该就是LLM聊天机器人了,运用得当的话它可比传统搜索引擎强多了,可成为你的得力助手。

图片

其实想体验LLM聊天机器人最简单的方式是直接用线上的,现在国内有许多类似的产品,比如阿里的通义千问、百度的文心一言等等,功能都挺齐全的,我最初也是从这些开始上手的,不过在线的功能始终还是会涉及私密性的问题,所以我就开始着手研究本地部署的聊天机器人。

NVIDIA Chat RTX上手体验

最开始尝试的其实是NVIDIA的Chat RTX,这软件NVIDIA刚对它进行了更新,旧版其实挺不好用的,只内置了两个英文的LLM,新的版本加入了智谱AI的ChatGLM3这个中文LLM的支持,同时还支持语音输入和图像搜索功能。

图片

最新版ChatRTX的版本号升级到0.3,新版的安装包从36.2GB一下子减少到11.6GB,原因是现在里面只自带了一个Mistral 7B的模型,而原本还有个Llama2 13B的模型。

图片
新版ChatRTX长这样的,可以看到多了个增加新模型的功能

图片

但这并不是可以随意添加模型的意思,而是可选择下载NVIDIA编译过的模型,Llama2 13B现在搬到了这里,此外还新增了ChatGLM 3 6B和Gemma 7B这两个模型的支持,那个CLIP则是图片搜索用的模型,想要下载哪个的话选中它然后点旁边的下载即可。

图片

模型的下载是不需要翻墙的,你可以在旁边的命令行窗口中看到下载速度相当快。

图片

下载完之后会提醒你模型可安装了,这里你要手动点击安装,需要注意的是到了安装这步就需要翻墙了,因为安装过程会在Hugging Face下载部分文件,不翻墙会导致安装失败。

图片

安装完之后就可以和机器人聊天了,我们下载的这个ChatGLM 3 6B由于是个小模型,而平台使用的是影驰RTX 4070 Ti SUPER 星曜 OC显卡,可见显存占用还不到6GB,所以显存容量超过8GB的RTX 30/40系显卡都可使用,应用范围还是很广的,当然那些13B以上的模型就得用12GB显存以上的显卡了。

图片
影驰RTX 4070 Ti SUPER 星曜 OC

ChatRTX跑的是NVIDIA TensorRT-LLM,效率其实是要比其他跑CUDA的软件快不少的,但我使用的时候发现这机器人聊天时没有联系上下文功能,这点体验就不太好。

最后要说的是NVIDIA ChatRTX是可以手动添加模型,但过程相当麻烦,要相当多的准备功夫,而且大部分都要在命令行里面操作,没相关的基础知识的话估计会相当的头大,这里我就不展开说了

Ollama搭建聊天机器人简单教程

随后我就去改去尝试Ollama,这是一个开源的大型语言模型服务工具,可帮助用户快速在本地运行大语言模型。大家可以访问Ollama官网下载该软件,软件支持macOC、Linux和Windows系统,这里我们选择的是Windows平台,软件的安装过程没啥好讲的,根据提示下一步就行。

图片

安装完成之后有个地方是可能需要改的,由于Ollama的默认模型安装位置是在C盘用户文件夹下的, 如果需要改位置的话就得去改环境变量,具体位置在系统属性=》高级=》环境变量,在系统变量那里选择新建一个叫“OLLAMA_DODELS”的条目,变量值填你指定的模组下载文件夹即可,这样Ollama算是设置好了。

图片

当然了Ollama只是负载运行的,你还得套一层UI,不然你就得用命令行来和机器人聊天了。这里我就选择了使用Chrome的插件Page Assist,安装方法你在Chrome的应用商店搜这个插件就行,只不过这过程你需要用到梯子。

图片

Page Assist并不需要做什么特殊设置,最多改下软件语言,有语音输入输出需求的还可以自行修改对应设置, 它是支持网络搜索的,但目前搜索引擎只能选择Google和DuckDuckGo,均需要准备翻墙工具

图片

接下来就需要拉LLM模型了,最简单的方法其实是访问Ollama Library,这里有大量已经适配好的LLM模型,每个模型旁边都有清晰的标识,包括模型的详细信息和拉取命令,如果已经装了Page Assist的话会多出一个下载按键,想下载的话直接点那个键就行,没有的话就复制那行命令贴到命令行那里运行,解下来等待下载完毕。

图片
你也可以复制指令到命令行下载

下载好后把Page Assist开打,在左上角选择你下好的模型,然后就可以问机器人各种问题了,Ollama会自动检测并使用可用的GPU资源,无需额外配置。

图片

这里我们这里就下载千问1.5的14b模型来演示一下,拥有16GB显存的显卡跑14b模型没啥问题,8GB显存的显卡就只能跑7b或者8b的模型了,如果显卡有24GB显存的话可以试试34b的模型。

图片

如果Ollama Library上没有你想要的模型的话,可自行到Hugging Face国内镜像站下载GGUF模型,一般来说在模型页面会教你怎么导入到Ollama中的, 我们就把最新的Llama3中文微调模型导入到Ollama里面使用。

图片

此外Page Assist现在还在测试知识库功能,可自行搭建本地的知识库,也可以把文档扔进去给AI分析归纳信息,支持pdf、csv、txt和md格式文件,单个条目可添加单个或多个文件。

图片

使用时需要在输入窗口选择你需要用到的文档,所以软件的知识标题填别随便填,否则很容易混乱,此外使用本地知识时网络搜索就不可使用了。

图片

对于消费级显卡来说,显存容量最多就24GB,单张卡能跑的模型大小是有限制的,但Ollama是支持多卡的,而且不需要用户额外的操作,把第二张显卡插上去,把驱动装好即可使用,这里我们就用了两张影驰RTX 4070 Ti SUPER 星曜 OC显卡运行yi1.5 34B的模型来演示一下。

图片

当软件识别出单张显卡的显存容量不足矣运行当前选择的模型时,就会自动把负载平均分配给两张显卡,可以看到两张RTX 4070 Ti SUPER的显存都占用了12GB,GPU负载也是50%左右,实际上如果凑够48GB显存的话就能跑70/72B的模型,你可以选择两张RTX 4090或RTX 3090,也可选择三张16GB显存的显卡,实际上我们此前评测的影驰RTX 4060 Ti无双MAX显卡就非常适合这种AI工作站。

图片

此外不同的显卡混搭是可以的,我们就尝试过可以用RTX 4070 Ti SUPER搭配RTX 4060 Ti 16GB使用,并没有出什么问题,不同显存容量的显卡混搭测试过也是可以的,测试过RTX 4090搭RTX 4080以及RTX 4070 Ti SUPER搭RTX 4070 SUPER这种组合,Ollama可以正常工作,并没有出什么问题。

全文总结

以上就是这段时间我们在研究本地部署的LLM大模型的体验,NVIDIA Chat RTX目前虽然比最早的体验版好用了不少,但依然处于很早期的状态,要自行添加指定模型比较麻烦,而且不能联系上下文这点体验并不好,不过想装来玩玩还是可以的,毕竟它的安装和使用都很简单,内置的小模型对显存容量需求也不高,8GB以上的显卡就可以跑。

Ollama搭配Page Assist这组合胜在够简单,比较适合刚接触这方面的新手,添加模型很方便,知识库和联网搜索功能都很好用,当然上限确实不是很高就是,而且功能也够用。

图片

玩了几个星期的LLM大模型感觉最深的还是跑这些显存是真不太够用,跑些稍微大些的模型16GB显存就不够用,现在终于理解高端显卡配24GB显存的意图了,而且在游戏领域现在没啥用的多卡并联在这里也有很大作用,毕竟24GB显存跑INT4量化的34b模型基本就极限了,想跑70b级别的模型得把显存容量翻倍,此时你就有24GB_2或者16GB_3的选择,说真的三张RTX 4060 Ti 16GB比两张RTX 4090 D便宜多了,如果是此前的影驰RTX 4070 Ti SUPER 星曜 OC这种单槽卡搭配HEDT或者工作站主板使用,可以在单CPU平台上堆出拥有非常庞大的显存系统,当然RTX 4060 Ti和RTX 4090 D的算力差距巨大就是另一回事了。

这次介绍的Chat RTX和Ollama搭Page Assist组合都是比较初级的本地LLM大模型方案,在这方面我们本身也是在研究中,希望这篇教程对那些想尝试搭建本地聊天机器人的新手有帮助,有更好思路的欢迎在下面留言讨论。

如何系统的去学习大模型LLM ?

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来

😝有需要的小伙伴,可以V扫描下方二维码免费领取🆓

在这里插入图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

在这里插入图片描述

四、AI大模型商业化落地方案

img

阶段1:AI大模型时代的基础理解

  • 目标:了解AI大模型的基本概念、发展历程和核心原理。
  • 内容
    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
      - L1.4.1 知识大模型
      - L1.4.2 生产大模型
      - L1.4.3 模型工程方法论
      - L1.4.4 模型工程实践
    • L1.5 GPT应用案例

阶段2:AI大模型API应用开发工程

  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
  • 内容
    • L2.1 API接口
      - L2.1.1 OpenAI API接口
      - L2.1.2 Python接口接入
      - L2.1.3 BOT工具类框架
      - L2.1.4 代码示例
    • L2.2 Prompt框架
      - L2.2.1 什么是Prompt
      - L2.2.2 Prompt框架应用现状
      - L2.2.3 基于GPTAS的Prompt框架
      - L2.2.4 Prompt框架与Thought
      - L2.2.5 Prompt框架与提示词
    • L2.3 流水线工程
      - L2.3.1 流水线工程的概念
      - L2.3.2 流水线工程的优点
      - L2.3.3 流水线工程的应用
    • L2.4 总结与展望

阶段3:AI大模型应用架构实践

  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
  • 内容
    • L3.1 Agent模型框架
      - L3.1.1 Agent模型框架的设计理念
      - L3.1.2 Agent模型框架的核心组件
      - L3.1.3 Agent模型框架的实现细节
    • L3.2 MetaGPT
      - L3.2.1 MetaGPT的基本概念
      - L3.2.2 MetaGPT的工作原理
      - L3.2.3 MetaGPT的应用场景
    • L3.3 ChatGLM
      - L3.3.1 ChatGLM的特点
      - L3.3.2 ChatGLM的开发环境
      - L3.3.3 ChatGLM的使用示例
    • L3.4 LLAMA
      - L3.4.1 LLAMA的特点
      - L3.4.2 LLAMA的开发环境
      - L3.4.3 LLAMA的使用示例
    • L3.5 其他大模型介绍

阶段4:AI大模型私有化部署

  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
  • 内容
    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景

学习计划:

  • 阶段1:1-2个月,建立AI大模型的基础知识体系。
  • 阶段2:2-3个月,专注于API应用开发能力的提升。
  • 阶段3:3-4个月,深入实践AI大模型的应用架构和私有化部署。
  • 阶段4:4-5个月,专注于高级模型的应用和部署。
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值