“随着服务器端大模型部署的热度逐渐降低,端侧大模型部署的热潮正在逐步到来!只要你简单的调用一下OpenAI等公司提供的API,你就可以部署服务端的大模型,不过想要在一个端侧新硬件上面部署语言大模型还是一件很有挑战的事情。如果你对端侧大模型部署感兴趣,本文推荐的这些大模型部署工具一定会让你的工作事半功倍!”
1、大模型部署难点
挑战因素 |
主要原因 |
解决思路 |
数据规模大 | 1、标注成本高 2、质量参差不齐 3、行业数据不开源 |
1、指令微调 2、使用开源数据 3、行业内部大模型 |
模型体积大 |
1、模型参数大 2、小模型性能差 3、大模型才会有质变 |
1、模型低比特量化 2、模型蒸馏 3、模型并行调度 |
算力规模大 |
1、低算力耗时太长 2、产品周期限制 3、数据和模型决定 |
1、数据并行化 2、模型并行化 3、充分压榨算力 |
硬件设备多 | 1、硬件厂商多 2、没有编译器生态 3、用户需求不一致 |
1、适配多前端 2、适配多后端 3、推广深度学习编译器 |
2、大模型部署工具链
2.1、JittorLLM
**
链接: https://github.com/Jittor/JittorLLMs
简介:JittorLLM,即计图,它是一个大模型推理库,即使你的笔记本电脑没有显卡也可以用它来跑大模型!该工具由Fitten与清华大学联合开发,当前支持4个语言大模型,具体包括:ChatGLM、盘古、ChatRWKV、LLaMA。该工具链支持多种硬件设备,除了支持主流的NVIDIA、AMD、Ascend硬件外,还支持天数智芯、中科海光和摩尔线程的硬件设备!该工具链主要通过动态swap机制和Transformer加速库来加速语言大模型部署。
安装:
# 下载git仓库``git clone https://gitlink.org.cn/jittor/JittorLLMs.git --depth 1``cd JittorLLMs``# -i 指定用jittor的源, -I 强制重装Jittor版torch``pip install -r requirements.txt -i https://pypi.jittor.org/simple -I
Demo:
特点:
-
速度快
-
成本低
-
可移植
-
可拓展
效果:
2.2、BMInf
链接: https://github.com/OpenBMB/BMInf
简介:BMInf (Big Model Inference) 是一个用于大规模预训练语言模型(pretrained language models, PLM)推理阶段的低