20240511大模型开发日记-Qwen1.5-110B-chat cpu版量化和open-webui部署

最新推荐文章于 2025-04-20 23:10:34 发布

算法之路慢慢兮，吾将上下而求索

最新推荐文章于 2025-04-20 23:10:34 发布

阅读量759

点赞数 6

分类专栏：大模型开发深度学习文章标签： python llama

本文链接：https://blog.csdn.net/cristemw/article/details/138723643

版权

深度学习同时被 2 个专栏收录

6 篇文章

订阅专栏

大模型开发

1 篇文章

订阅专栏

1.Qwen1.5-110B-chat cpu版量化
今天上午做的是对110B-chat版进行cpu量化，使用的是llamacpp
因为要量化为cpu版本，所以到llamacpp文件夹下，直接输入make命令，目的是生成用于推理的./main和用于量化的./quantize二进制文件。
（使用make LLAMA_CUDA=1 ，则是为了进行gpu推理）
make完之后，输入python convert.py /allUser/two/demo/model/Qwen1.5-110B-Chat --outfile /allUser/two/demo/model/Qwen1.5-110B-Chat/ggml-model-f16-cpu.gguf --vocab-type bpe --pad-vocab 这个命令。
（在这里llamacpp对Qwen系列模型的支持没有llama系列的好，还需要加–vocab-type bpe --pad-vocab，如果量化的是llama系列模型，则python convert-hf-to-gguf.py /allUser/two/demo/model/ChineseAlpacaGroup/llama-3-chinese-8b就可以。）
在输入py convert,py后，则后台开始把safetensor文件的每层逐个转换成.gguf文件，但是在这里我出现了问题（在转换llama的时候就没有出现过），每次转换到200多就卡死了，后面ctrl+c停掉后再次转换，等会又卡死，不知道什么问题，当前我是用llamacpp的版本是5.06日下载，我的配置是内存512G，硬盘3.5T，ubuntu 22.04，感觉不会出现爆内存的情况，在转化过程中cpu是打满的，未用到gpu。
2.open-webui本地部署
这次为了调试，所以要在本地上也部署一份，在win11上部署要有个Node.js >=20.10和py>=3.11
安装Node.js，最好要有个管理npm包工具，这个我用的是nvm管理工具，教程是：https://blog.csdn.net/HuangsTing/article/details/113857145，跟着这个教程了就没什么问题。
安装完之后接着按照教程来：
先：
npm i
npm run build
在：
cd ./backend
pip install -r requirements.txt -U # 这里最好用-i https://pypi.mirrors.ustc.edu.cn/simple/ 使用国内镜像来进行安装
bash start.sh
但是在这一步：ERROR: Cannot uninstall ‘TBB’. It is a distutils installed project and thus we cannot accurately determine which files belong to ial uninstall. 这个包没有安装好，所以还要按这个’TBB’包（这一步再linux上是没有问题的）
目前就这样，然后后面再安装
后bash start.sh启动。