LLM训推适配-[昇腾910B]-大模型量化推理
推理框架MindIE
目前支持w8a8/w8a16/w8a16三种量化方式
0.环境介绍
软件 | 版本 |
---|---|
驱动 | 24.1.rc1 |
cann | 8.0.T37 |
Ascend-mindie | MindIE 1.0.T61.B010 |
mindie-rt | 1.0.T61.B010 |
mindie-torch | 1.0.T61.B010 |
mindie-service | 1.0.T61.B010 |
mindie-llm | 1.0.T61.B010 |
自建镜像或者使用ascendhub发布的镜像
1.qwen2-72B-Chat w8a16量化
#1. 启动容器
docker run --rm -it -u root --name=mindie_t61 --net=host --privileged=true -w /home --device=/dev/davinci_manager --device=/dev/devmm_svm --device=/dev/hisi_hdc -v /usr/local/Ascend/driver:/usr/local/Ascend