大模型部署手记(4)MOSS+Jetson AGX Orin

1.简介

组织机构:复旦大学

代码仓:GitHub - OpenLMLab/MOSS: An open-source tool-augmented conversational language model from Fudan University

模型:fnlp/moss-moon-003-sft-int4

下载:https://huggingface.co/fnlp/moss-moon-003-sft-int4

硬件环境:Jetson AGX Orin

根据:

所以显然只能选择int4量化了。

2.代码和模型下载

登录Orin:

cd /home1/zhanghui

git clone https://github.com/OpenLMLab/MOSS.git

量化int4的模型地址:https://huggingface.co/fnlp/moss-moon-003-sft-int4

打开链接下载:

下载完毕后,将其移动到 /home1/zhanghui/MOSS/fnlp/moss-moon-003-sft-int4 目录下:

3.安装依赖

conda create --name moss python=3.8

conda activate moss

cd MOSS

修改requirements.txt:

cd ..

pip install ./torch-1.13.0a0+d0d6b1f2.nv22.10-cp38-cp38-linux_aarch64.whl

cd MOSS

pip install -r requirements.txt

没装成功,注释掉 triton,再来:

源码安装triton

cd /home1/zhanghui

git clone https://github.com/openai/triton

cd triton

pip install ninja cmake wheel

pip install -e python

4.部署验证

运行命令行DEMO:

cd /home1/zhanghui

cd MOSS

python moss_cli_demo.py

程序死机了。(桌面不能动了,但是终端还可以操作)

系统不间断弹出以下画面:

pip install jittor

参考:https://zhuanlan.zhihu.com/p/610563590

pip install cupy-cuda11x -f http://pip.cupy.dev/aarch64

python moss_cli_demo.py --model_name fnlp/moss-moon-003-sft-int4 --gpu GPU

好像MOSS回答问题不像《流浪地球2》那么快,但是GPU却烧得厉害:

第二个问题等了几分钟都没动静。

MOSS,你到底能做什么呢?

等了好久,它终于回答了:

然而,后面一个问题,它又在耐心思考了。。。

MOSS,你是他吗?

又等了好久。。。

再来:

又等了好久:

所以MOSS它还是有能力的,只是现在有可能只是550W。

(全文完,谢谢阅读)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

张小白TWO

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值