大模型的本机部署

原文章地址:大模型的本机部署 - Only(AR)'s blog (onlyar.site)

1 介绍

用于方便在个人电脑上快速启动一个大语言聊天模型。支持命令行聊天和网页端聊天两种方式。最低配置可以支持纯 CPU,有独立显卡会有更好的体验。

本项目基于目前非常火的大模型微调开源项目 LLaMA-Factory,大家可以点进去给给 Star 支持一下学长的工作。

网页端演示:

命令行演示:

2 环境配置

首先安装 Python,请使用 3.9 以上的版本。推荐使用 conda 或 venv 管理 python 环境。如果您没有安装过 conda,请自行查阅资料(b站/csdn/知乎),推荐安装 miniconda 而不是 anaconda,因为 anaconda 有很多科学计算相关功能占用了不必要的空间。

安装好 conda 后,可以按如下步骤准备你的环境:

2.1 创建 conda 环境

conda create -n llm-chat python=3.9

2.2 激活 conda 环境

conda activate llm-chat

激活后会看到你的命令行界面有 (llm-chat) 的字样,以后记得使用 pip 安装包之前要确保处于目标环境,不要装错了。

2.3 安装 pytorch

这里根据设备不同有两种安装方式

CPU/无独立显卡/显卡很烂(MX450 以下)/诶我有显卡但嫌麻烦就是不用

直接执行命令安装 CPU 版本的 pytorch 即可(但是 CPU 的运行速度要比显卡慢很多)

pip install torch torchvision torchaudio

然后直接看第 4 步

有 Nvidia 独立显卡

首先确保你有 cuda,先执行:

nvidia-smi

如果出现如下字样,说明正确安装了 cuda:

+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.14              Driver Version: 550.54.14      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA A100-SXM4-40GB          Off |   00000000:0E:00.0 Off |                    0 |
| N/A   55C    P0             53W /  400W |       3MiB /  40960MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+

否则请先安装 cuda:CUDA安装及环境配置——最新详细版-CSDN博客

安装 cuda 以后再执行nvidia-smi查看 cuda 版本,如果正常,请看官网安装 pytorch:Start Locally | PyTorch,注意选择 Stable、Windows 平台、pip 安装、选择匹配你的 cuda 版本(你的 cuda 版本应该在 nvidia-smi 中有显示,如果你的版本比 pytorch 官网的还要高,选择一个较新的就可以)

如果下载太慢,请自行搜索解决方式

 下面检验是否启用了 gpu,首先在命令行激活环境后,输入 python,之后依次在交互式终端中输入以下语句:

>>> import torch

>>> torch.cuda.is_available()

输入输出 True 恭喜你成功启用了 cuda,如果是 False 或者其他错误,可以自行百度解决方案。

2.4 拉取代码:

克隆仓库:

git clone https://github.com/OnlyAR/nano-ai-chat.git

拉取失败的话自行搜索:“git 的安装”等相关知识

如果拉取速度很慢可以参考 ssh 链接拉取方法:ssh 连接 git 教程 - Only(AR)'s blog (onlyar.site)

 这个仓库搬运自 LLaMA-Factory,由于原来仓库很大使用不方便,我只取了用于部署的部分代码。

2.5 安装依赖

在激活完环境以后进入仓库目录:

cd nano-ai-chat

运行安装命令:

pip install -r requirements.txt

3 下载模型

请选择你的模型,本项目下载源是国内站(Modelscope),如需使用 huggingface 请自行努力,可选择的模型列表:

名称templatepath主页
Qwen1.5-0.5B-Chatqwenqwen/Qwen1.5-0.5B-Chat通义千问1.5-0.5B-Chat · 模型库 (modelscope.cn)
Qwen1.5-1.8B-Chatqwenqwen/Qwen1.5-1.8B-Chat通义千问1.5-1.8B-Chat · 模型库 (modelscope.cn)
Qwen1.5-4B-Chatqwenqwen/Qwen1.5-4B-Chat通义千问1.5-4B-Chat · 模型库 (modelscope.cn)
Qwen1.5-beta-7B-Chatqwenqwen/Qwen1.5-7B-Chat通义千问1.5-7B-Chat · 模型库 (modelscope.cn)
CodeQwen1.5-7B-Chatqwenqwen/CodeQwen1.5-7B-ChatCodeQwen1.5-7B-Chat · 模型库 (modelscope.cn)
Yi-6B-Chatyi01ai/Yi-6B-ChatYi-6B-Chat · 模型库 (modelscope.cn)

 这里只列举了常用的小规模中文对话模型,更多支持的模型请查看hiyouga/LLaMA-Factory: Unify Efficient Fine-Tuning of 100+ LLMs (github.com)

只有模型名字里带有 Chat 的才是对话模型,否则是基础模型,只能续写句子不能对话。模型的 -xB- 表示参数量,1B 表示十亿,CPU 玩家建议用 0.5B 或 1.8B 试试,独立显卡玩家可以大一点。

 运行下载脚本将模型下载到本地,例如我下载 Qwen1.5-0.5B-Chat:

python download.py --model qwen/Qwen1.5-0.5B-Chat

对于上表里有的模型,--model 参数请填写 path,没有的模型可以去主页查。脚本默认将模型下载到当前目录下的 model 文件夹,可以通过 --output 参数修改。

 4 大模型,启动!

介绍两种启动方式(均不需要联网):

  • Web 端
python web_demo.py --model_name_or_path model/qwen/Qwen1___5-0___5B-Chat --template qwen
  • 命令行
python cli_demo.py --model_name_or_path model/qwen/Qwen1___5-0___5B-Chat --template qwen

参数解释:

  • --model_name_or_path:模型路径,请按照实际下载位置填写
  • template:使用的模板,请查阅上表或 LLaMA-Factory 仓库中的表格填写

启动了以后,就可以对话了,对话是默认保存历史的,网页端有按钮清除历史(或者刷新),命令行输入 clear 是清除历史。

按下 Ctrl+C 是停止程序,命令行输入 exit 也可以停止

  1. Zheng Y, Zhang R, Zhang J, et al. Llamafactory: Unified efficient fine-tuning of 100+ language models[J]. arXiv preprint arXiv:2403.13372, 2024.

  • 38
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
将大模型glm3部署到笔记本本地CPU可能会面临一些挑战。首先,大模型意味着它的大小和复杂度较大,在本地的笔记本CPU上可能无法完全支持。因此,在部署之前,我们需要确保笔记本的处理能力和内存足以支持该模型的运行。 在部署模型glm3之前,我们还需要提前进行一些准备工作。首先,我们需要安装和配置适当的软件环境,例如R或Python的科学计算库。其次,我们需要下载并导入所需的数据集和训练好的模型参数。 在将大模型glm3部署到笔记本本地CPU上时,我们需要注意以下几点: 1. 内存管理:由于大模型的复杂性和大小,可能会占用较大的内存空间。因此,我们需要注意内存的管理,确保足够的内存可用,并及时释放不需要的内存。 2. CPU资源分配:大模型的训练和推断过程可能会占用大量的CPU资源。在部署之前,我们可以通过限制其他应用程序的资源使用来提供更多的CPU资源给模型运行。 3. 模型优化:为了在本地CPU上更高效地运行大模型glm3,我们可以考虑一些模型优化策略,例如模型压缩、并行计算等。这些策略可以帮助减少模型的大小和计算复杂度,提高模型的性能。 4. 计算效率:大模型的训练和推断过程需要大量的计算资源。在部署之前,我们可以尝试使用更高效的算法或技术来减少计算的时间和资源消耗。 总结而言,将大模型glm3部署到笔记本本地CPU需要我们考虑资源管理、模型优化和计算效率等方面。在合理利用资源和采用适当的优化策略下,我们可以在本地CPU上成功部署和运行大模型glm3。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值