20240511大模型开发日记-Qwen1.5-110B-chat cpu版量化和open-webui部署

1.Qwen1.5-110B-chat cpu版量化
今天上午做的是对110B-chat版进行cpu量化,使用的是llamacpp
因为要量化为cpu版本,所以到llamacpp文件夹下,直接输入make命令,目的是生成用于推理的./main和用于量化的./quantize二进制文件。
(使用make LLAMA_CUDA=1 ,则是为了进行gpu推理)
make完之后,输入python convert.py /allUser/two/demo/model/Qwen1.5-110B-Chat --outfile /allUser/two/demo/model/Qwen1.5-110B-Chat/ggml-model-f16-cpu.gguf --vocab-type bpe --pad-vocab 这个命令。
(在这里llamacpp对Qwen系列模型的支持没有llama系列的好,还需要加–vocab-type bpe --pad-vocab,如果量化的是llama系列模型,则python convert-hf-to-gguf.py /allUser/two/demo/model/ChineseAlpacaGroup/llama-3-chinese-8b就可以。)
在输入py convert,py后,则后台开始把safetensor文件的每层逐个转换成.gguf文件,但是在这里我出现了问题(在转换llama的时候就没有出现过),每次转换到200多就卡死了,后面ctrl+c停掉后再次转换,等会又卡死,不知道什么问题,当前我是用llamacpp的版本是5.06日下载,我的配置是内存512G,硬盘3.5T,ubuntu 22.04,感觉不会出现爆内存的情况,在转化过程中cpu是打满的,未用到gpu。
2.open-webui本地部署
这次为了调试,所以要在本地上也部署一份,在win11上部署要有个Node.js >=20.10和py>=3.11
安装Node.js,最好要有个管理npm包工具,这个我用的是nvm管理工具,教程是:https://blog.csdn.net/HuangsTing/article/details/113857145,跟着这个教程了就没什么问题。
安装完之后接着按照教程来:
先:
npm i
npm run build
在:
cd ./backend
pip install -r requirements.txt -U # 这里最好用-i https://pypi.mirrors.ustc.edu.cn/simple/ 使用国内镜像来进行安装
bash start.sh
但是在这一步:ERROR: Cannot uninstall ‘TBB’. It is a distutils installed project and thus we cannot accurately determine which files belong to ial uninstall. 这个包没有安装好,所以还要按这个’TBB’包(这一步再linux上是没有问题的)
目前就这样,然后后面再安装
后bash start.sh启动。

  • 6
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值